Скрытая битва за доминирование в области данных: тайная борьба гигантов искусственного интеллекта

Сэм Альтман

Рынок генеративного искусственного интеллекта (GenAI) в настоящее время погружён в состояние скрытой конкуренции. Речь идёт не только о захвате доли рынка или установлении доминирования, что типично для новых рынков. И дело даже не столько в острой конкуренции за вычислительные мощности, учитывая ограниченность поставок высокопроизводительных чипов. Более того, это гонка за один из самых важных ресурсов для разработки передовых моделей: данные. Несмотря на кажущийся бесконечный запас контента в современную цифровую эпоху, существующего количества контента в сети окажется недостаточно для удовлетворения потребностей в больших моделях искусственного интеллекта на долгое время. Таким образом, различные компании в этой области полны решимости сделать всё возможное, чтобы первыми получить доступ к неиспользованным резервуарам данных.

Предполагается, что к 2028 году спрос на высококачественные текстовые данные превысит предложение на 90%.

Большие языковые модели (LLM), такие как ChatGPT от OpenAI и Gemini от Google, достигли выдающихся результатов благодаря различным факторам, включая прорывы в разработке алгоритмов и расширенные вычислительные возможности, предоставляемые высокопроизводительными чипами. Доступ к обширному количеству текстовых и других материалов, доступных в Интернете, также сыграл значительную роль в их успехе.

Интернет, который превратился в крупнейшее хранилище человеческих знаний в истории, способствует этому подходу. Объем контента, предоставляемого для этих моделей, растет в геометрической прогрессии с каждым днем. Модели черпают силу из различных источников онлайн-данных, включая научные статьи, новости, записи в Википедии, сообщения в социальных сетях и оцифрованные книги. Каждый фрагмент данных разбивается и передается в модель небольшими единицами, называемыми токенами. Например, по оценкам, GPT-4 от OpenAI был обучен на 12 триллионах токенов.

Однако возможно, что даже кажущийся неисчерпаемым онлайн-выбор может оказаться недостаточным для обучения новых, более совершенных моделей. Например, прогнозируется, что GPT-5 потребует от 60 до 100 триллионов токенов. Несмотря на усилия по использованию всех доступных высококачественных письменных и визуальных данных в сети, может остаться значительный разрыв в размере от 10 до 20 триллионов и более токенов. По оценкам экспертов, с вероятностью 90% к 2028 году спрос на высококачественные текстовые данные превысит предложение, что значительно замедлит развитие искусственного интеллекта.

Тайные начинания

Поиск неиспользованных источников данных и новых методов обучения

В ответ на эту проблему компании, занимающиеся искусственным интеллектом, активно ищут неиспользованные источники данных и разрабатывают новые методы обучения моделей. Ари Моркос, основатель DatologyAI и бывший сотрудник Meta и DeepMind Google, описывает нехватку данных как новаторскую проблему, для которой нет приемлемого решения.

Например, OpenAI изучает транскрипцию высококачественных видео и аудиозаписей, включая общедоступные видеоролики на YouTube, для обучения GPT-5. Хотя некоторые компании экспериментируют с созданием синтетических обучающих материалов с помощью систем искусственного интеллекта, исследователи предупреждают, что такой подход может привести к получению бессвязных данных. Все эти усилия проводятся в тайне, поскольку руководители считают, что могут получить конкурентное преимущество.

Этот аспект конкуренции между компаниями можно сравнить с гонкой между европейскими державами в колониальный период за право владения неизведанными территориями и эксплуатацию их ресурсов. Превращение сверхдержав в технологические компании и переход от золота и полезных ископаемых к данным ярко иллюстрируют социальные изменения последних столетий.

Креативные решения

Максимальное использование данных и сокращение затрат

Некоторые компании ищут творческие способы максимально эффективного использования существующих данных. DatologyAI разработала метод, который называется обучением по учебной программе, при котором данные подаются в модель в определенном порядке для создания более логичных связей. Этот метод обеспечивает производительность, сопоставимую с традиционными методами обучения, но требует вдвое меньше данных, что значительно снижает затраты на обучение и эксплуатацию моделей GenAI.

Кроме того, компании как OpenAI экспериментируют с созданием меньших по размеру моделей, адаптированных для конкретных задач. По словам Сэма Альтмана, основателя и генерального директора OpenAI, эра огромных моделей может подходить к концу, и основное внимание уделяется альтернативным улучшениям.

Хотя потенциальное отсутствие достаточных данных может нанести существенный ущерб разработке новых моделей и оказать неблагоприятное воздействие на отрасль и экономику, эксперты считают, что этот сценарий маловероятен. Они сравнивают это с опасениями по поводу «пика нефти» в начале этого столетия, которые были опровергнуты благодаря достижениям в технологиях производства и сдвигу спроса в сторону устойчивых источников энергии. Подобные разработки наблюдаются и в области искусственного интеллекта, хотя наибольшая неопределенность связана с ожиданием технологических прорывов.

Опубликовано на сайте Calcalistech

Телеграм канал Радио Хамсин >>

  • Другие посты

    Новое поколение израильских кибер-экзитов

    «2025 год запомнится не только рекордными экзитами, но и поляризацией и зрелостью сектора», — пишет Дорин Баниэль, глава офиса EMEA в компании NightDragon.

    Читать
    Озеро Кинерет пополнено опреснённой водой в рамках уникального мирового проекта

    Инициатива, известная как «Обратный водовод», повторяет по концепции Национальный водовод, запущенный в 1994 году, который транспортировал воду из Киннерета в центр и на юг страны.

    Читать

    Не пропустите

    Давайте честно поговорим о месте Израиля в мире

    Давайте честно поговорим о месте Израиля в мире

    Проиграл ли Израиль войну? Газа и иллюзия победы

    Проиграл ли Израиль войну? Газа и иллюзия победы

    Советские близнецы: антиизраилизм и анти-иудаизм

    Советские близнецы: антиизраилизм и анти-иудаизм

    У Израиля есть полное право наносить удары по «Аль-Джазире» в Газе

    У Израиля есть полное право наносить удары по «Аль-Джазире» в Газе

    В чём же драматизм последнего решения кабинета?

    В чём же драматизм последнего решения кабинета?

    Нет выбора: горькая правда, которую общество должно услышать от Нетаньяху

    Нет выбора: горькая правда, которую общество должно услышать от Нетаньяху