Скрытая битва за доминирование в области данных: тайная борьба гигантов искусственного интеллекта

Сэм Альтман

Рынок генеративного искусственного интеллекта (GenAI) в настоящее время погружён в состояние скрытой конкуренции. Речь идёт не только о захвате доли рынка или установлении доминирования, что типично для новых рынков. И дело даже не столько в острой конкуренции за вычислительные мощности, учитывая ограниченность поставок высокопроизводительных чипов. Более того, это гонка за один из самых важных ресурсов для разработки передовых моделей: данные. Несмотря на кажущийся бесконечный запас контента в современную цифровую эпоху, существующего количества контента в сети окажется недостаточно для удовлетворения потребностей в больших моделях искусственного интеллекта на долгое время. Таким образом, различные компании в этой области полны решимости сделать всё возможное, чтобы первыми получить доступ к неиспользованным резервуарам данных.

Предполагается, что к 2028 году спрос на высококачественные текстовые данные превысит предложение на 90%.

Большие языковые модели (LLM), такие как ChatGPT от OpenAI и Gemini от Google, достигли выдающихся результатов благодаря различным факторам, включая прорывы в разработке алгоритмов и расширенные вычислительные возможности, предоставляемые высокопроизводительными чипами. Доступ к обширному количеству текстовых и других материалов, доступных в Интернете, также сыграл значительную роль в их успехе.

Интернет, который превратился в крупнейшее хранилище человеческих знаний в истории, способствует этому подходу. Объем контента, предоставляемого для этих моделей, растет в геометрической прогрессии с каждым днем. Модели черпают силу из различных источников онлайн-данных, включая научные статьи, новости, записи в Википедии, сообщения в социальных сетях и оцифрованные книги. Каждый фрагмент данных разбивается и передается в модель небольшими единицами, называемыми токенами. Например, по оценкам, GPT-4 от OpenAI был обучен на 12 триллионах токенов.

Однако возможно, что даже кажущийся неисчерпаемым онлайн-выбор может оказаться недостаточным для обучения новых, более совершенных моделей. Например, прогнозируется, что GPT-5 потребует от 60 до 100 триллионов токенов. Несмотря на усилия по использованию всех доступных высококачественных письменных и визуальных данных в сети, может остаться значительный разрыв в размере от 10 до 20 триллионов и более токенов. По оценкам экспертов, с вероятностью 90% к 2028 году спрос на высококачественные текстовые данные превысит предложение, что значительно замедлит развитие искусственного интеллекта.

Тайные начинания

Поиск неиспользованных источников данных и новых методов обучения

В ответ на эту проблему компании, занимающиеся искусственным интеллектом, активно ищут неиспользованные источники данных и разрабатывают новые методы обучения моделей. Ари Моркос, основатель DatologyAI и бывший сотрудник Meta и DeepMind Google, описывает нехватку данных как новаторскую проблему, для которой нет приемлемого решения.

Например, OpenAI изучает транскрипцию высококачественных видео и аудиозаписей, включая общедоступные видеоролики на YouTube, для обучения GPT-5. Хотя некоторые компании экспериментируют с созданием синтетических обучающих материалов с помощью систем искусственного интеллекта, исследователи предупреждают, что такой подход может привести к получению бессвязных данных. Все эти усилия проводятся в тайне, поскольку руководители считают, что могут получить конкурентное преимущество.

Этот аспект конкуренции между компаниями можно сравнить с гонкой между европейскими державами в колониальный период за право владения неизведанными территориями и эксплуатацию их ресурсов. Превращение сверхдержав в технологические компании и переход от золота и полезных ископаемых к данным ярко иллюстрируют социальные изменения последних столетий.

Креативные решения

Максимальное использование данных и сокращение затрат

Некоторые компании ищут творческие способы максимально эффективного использования существующих данных. DatologyAI разработала метод, который называется обучением по учебной программе, при котором данные подаются в модель в определенном порядке для создания более логичных связей. Этот метод обеспечивает производительность, сопоставимую с традиционными методами обучения, но требует вдвое меньше данных, что значительно снижает затраты на обучение и эксплуатацию моделей GenAI.

Кроме того, компании как OpenAI экспериментируют с созданием меньших по размеру моделей, адаптированных для конкретных задач. По словам Сэма Альтмана, основателя и генерального директора OpenAI, эра огромных моделей может подходить к концу, и основное внимание уделяется альтернативным улучшениям.

Хотя потенциальное отсутствие достаточных данных может нанести существенный ущерб разработке новых моделей и оказать неблагоприятное воздействие на отрасль и экономику, эксперты считают, что этот сценарий маловероятен. Они сравнивают это с опасениями по поводу «пика нефти» в начале этого столетия, которые были опровергнуты благодаря достижениям в технологиях производства и сдвигу спроса в сторону устойчивых источников энергии. Подобные разработки наблюдаются и в области искусственного интеллекта, хотя наибольшая неопределенность связана с ожиданием технологических прорывов.

Опубликовано на сайте Calcalistech

Телеграм канал Радио Хамсин >>

  • Другие посты

    Израиль не отстаёт в глобальной гонке искусственного интеллекта

    Израиль инвестирует 500 млн шекелей в инфраструктуру НИОКР. Средства программы будут направлены на создание национального исследовательского института ИИ, расширение человеческого капитала и интеграцию моделей ИИ в государственные услуги

    Читать
    Последняя атака на Трампа напоминает о прошлых покушениях на лидеров США

    Неудачная стрельба по экс-президенту стала второй за два месяца; четыре президента были убиты во время пребывания в должности, в то время как другие пережили покушения.

    Читать

    Не пропустите

    ХАМАС требует Филадельфийский коридор не просто так — анализ

    ХАМАС требует Филадельфийский коридор не просто так — анализ

    Израильтянин, стоящий за глобальным консервативным движением

    Израильтянин, стоящий за глобальным консервативным движением

    Как исторические решения влияют на текущую войну Израиля

    Как исторические решения влияют на текущую войну Израиля

    Не только для некоторых: Израиль уже является или вскоре станет домом для большинства евреев мира

    Не только для некоторых: Израиль уже является или вскоре станет домом для большинства евреев мира

    Почему назначение Илана Голденберга вызывает тревогу у друзей Израиля

    Почему назначение Илана Голденберга вызывает тревогу у друзей Израиля
    Защищаться своими силами