Скрытая битва за доминирование в области данных: тайная борьба гигантов искусственного интеллекта

Рынок генеративного искусственного интеллекта (GenAI) в настоящее время погружён в состояние скрытой конкуренции. Речь идёт не только о захвате доли рынка или установлении доминирования, что типично для новых рынков. И дело даже не столько в острой конкуренции за вычислительные мощности, учитывая ограниченность поставок высокопроизводительных чипов. Более того, это гонка за один из самых важных ресурсов для разработки передовых моделей: данные. Несмотря на кажущийся бесконечный запас контента в современную цифровую эпоху, существующего количества контента в сети окажется недостаточно для удовлетворения потребностей в больших моделях искусственного интеллекта на долгое время. Таким образом, различные компании в этой области полны решимости сделать всё возможное, чтобы первыми получить доступ к неиспользованным резервуарам данных.

Предполагается, что к 2028 году спрос на высококачественные текстовые данные превысит предложение на 90%.

Большие языковые модели (LLM), такие как ChatGPT от OpenAI и Gemini от Google, достигли выдающихся результатов благодаря различным факторам, включая прорывы в разработке алгоритмов и расширенные вычислительные возможности, предоставляемые высокопроизводительными чипами. Доступ к обширному количеству текстовых и других материалов, доступных в Интернете, также сыграл значительную роль в их успехе.

Интернет, который превратился в крупнейшее хранилище человеческих знаний в истории, способствует этому подходу. Объем контента, предоставляемого для этих моделей, растет в геометрической прогрессии с каждым днем. Модели черпают силу из различных источников онлайн-данных, включая научные статьи, новости, записи в Википедии, сообщения в социальных сетях и оцифрованные книги. Каждый фрагмент данных разбивается и передается в модель небольшими единицами, называемыми токенами. Например, по оценкам, GPT-4 от OpenAI был обучен на 12 триллионах токенов.

Однако возможно, что даже кажущийся неисчерпаемым онлайн-выбор может оказаться недостаточным для обучения новых, более совершенных моделей. Например, прогнозируется, что GPT-5 потребует от 60 до 100 триллионов токенов. Несмотря на усилия по использованию всех доступных высококачественных письменных и визуальных данных в сети, может остаться значительный разрыв в размере от 10 до 20 триллионов и более токенов. По оценкам экспертов, с вероятностью 90% к 2028 году спрос на высококачественные текстовые данные превысит предложение, что значительно замедлит развитие искусственного интеллекта.

Тайные начинания

Поиск неиспользованных источников данных и новых методов обучения

В ответ на эту проблему компании, занимающиеся искусственным интеллектом, активно ищут неиспользованные источники данных и разрабатывают новые методы обучения моделей. Ари Моркос, основатель DatologyAI и бывший сотрудник Meta и DeepMind Google, описывает нехватку данных как новаторскую проблему, для которой нет приемлемого решения.

Например, OpenAI изучает транскрипцию высококачественных видео и аудиозаписей, включая общедоступные видеоролики на YouTube, для обучения GPT-5. Хотя некоторые компании экспериментируют с созданием синтетических обучающих материалов с помощью систем искусственного интеллекта, исследователи предупреждают, что такой подход может привести к получению бессвязных данных. Все эти усилия проводятся в тайне, поскольку руководители считают, что могут получить конкурентное преимущество.

Этот аспект конкуренции между компаниями можно сравнить с гонкой между европейскими державами в колониальный период за право владения неизведанными территориями и эксплуатацию их ресурсов. Превращение сверхдержав в технологические компании и переход от золота и полезных ископаемых к данным ярко иллюстрируют социальные изменения последних столетий.

Креативные решения

Максимальное использование данных и сокращение затрат

Некоторые компании ищут творческие способы максимально эффективного использования существующих данных. DatologyAI разработала метод, который называется обучением по учебной программе, при котором данные подаются в модель в определенном порядке для создания более логичных связей. Этот метод обеспечивает производительность, сопоставимую с традиционными методами обучения, но требует вдвое меньше данных, что значительно снижает затраты на обучение и эксплуатацию моделей GenAI.

Кроме того, компании как OpenAI экспериментируют с созданием меньших по размеру моделей, адаптированных для конкретных задач. По словам Сэма Альтмана, основателя и генерального директора OpenAI, эра огромных моделей может подходить к концу, и основное внимание уделяется альтернативным улучшениям.

Хотя потенциальное отсутствие достаточных данных может нанести существенный ущерб разработке новых моделей и оказать неблагоприятное воздействие на отрасль и экономику, эксперты считают, что этот сценарий маловероятен. Они сравнивают это с опасениями по поводу «пика нефти» в начале этого столетия, которые были опровергнуты благодаря достижениям в технологиях производства и сдвигу спроса в сторону устойчивых источников энергии. Подобные разработки наблюдаются и в области искусственного интеллекта, хотя наибольшая неопределенность связана с ожиданием технологических прорывов.

Опубликовано на сайте Calcalistech

Телеграм канал Радио Хамсин >>