Во вторник Meta Platforms выпустила самую большую версию своих в основном бесплатных моделей искусственного интеллекта Llama 3, которые могут похвастаться многоязычием и общими показателями производительности, которые не уступают платным моделям от конкурентов, таких как OpenAI.
Новая модель Llama 3 может общаться на восьми языках, писать компьютерный код более высокого качества и решать более сложные математические задачи, чем предыдущие версии, говорится в сообщении материнской компании Facebook в блоге и исследовательской статье, анонсирующей выпуск.
С 405 миллиардами параметров, или переменных, которые алгоритм учитывает при генерации ответов на запросы пользователей, он превосходит предыдущую версию, выпущенную в прошлом году, хотя по-прежнему уступает ведущим моделям, предлагаемым конкурентами.
В отличие от этого, модель OpenAI GPT-4, как сообщается, имеет один триллион параметров, а Amazon готовит модель с 2 триллионами параметров.
Продвигая Llama 3 по нескольким каналам, исполнительный директор Марк Цукерберг заявил, что ожидает, что будущие модели Llama обгонят своих конкурентов к следующему году. Чат-бот Meta AI, основанный на этих моделях, должен был стать самым популярным помощником с помощью искусственного интеллекта к концу этого года, и сотни миллионов людей уже используют его, сказал он.
Этот релиз появился в тот момент, когда технологические компании спешат показать, что их растущие портфолио ресурсоемких крупных языковых моделей могут обеспечить достаточно значительный выигрыш в известных проблемных областях, таких как расширенное мышление, чтобы оправдать гигантские суммы, которые в них были вложены.
Ведущий специалист Meta по искусственному интеллекту заявил, что, по его мнению, такие модели столкнутся с ограничениями в рассуждениях и что для достижения прорывов потребуются другие типы систем искусственного интеллекта.
В дополнение к своей флагманской модели с параметрами 405 миллиардов, Meta также выпускает обновленные версии своих облегченных моделей Llama 3 с параметрами 8 миллиардов и 70 миллиардов, которые были впервые представлены весной, говорится в сообщении компании.
Все три новые модели являются многоязычными и могут обрабатывать большие запросы пользователей через расширенное "контекстное окно", что, по словам главы отдела генеративного ИИ Meta Ахмада Аль-Дахле, в частности, улучшит процесс генерации компьютерного кода.
"Это был лучший отзыв, который мы получили от сообщества", - сказал Аль-Дахле в интервью Reuters, отметив, что большие контекстные окна дают моделям что-то вроде более объемной памяти, что помогает обрабатывать многоэтапные запросы.
Отдельно Аль-Дахле сказал, что его команда смогла улучшить производительность модели Llama 3 в таких задачах, как решение математических задач, используя искусственный интеллект для генерации некоторых данных, на которых они были обучены.
Meta выпускает свои модели Llama в основном бесплатно для использования разработчиками, и эта стратегия, по словам Цукерберга, окупится в виде инновационных продуктов, меньшей зависимости от потенциальных конкурентов и большей вовлеченности в основные социальные сети компании. Однако некоторые инвесторы с удивлением восприняли связанные с этим затраты.
Компания также выиграет, если разработчики предпочтут использовать ее бесплатные модели, а не платные, что подорвет бизнес-модели ее конкурентов. В своем анонсе Meta рекламировала результаты ключевых тестов по математике и знаниям, которые могут сделать эту перспективу более привлекательной.
Несмотря на то, что оценить прогресс в разработке искусственного интеллекта, как известно, сложно, результаты тестов, предоставленные компанией Meta, показали, что ее самая крупная модель Llama 3 практически соответствует, а в некоторых случаях превосходит Claude 3.5 Sonnet от Anthropic и GPT-4o от OpenAI, которые широко считаются двумя самыми мощными моделями frontier на рынке.
Например, в математическом тесте конкурсных словесных задач по математике модель Meta набрала 73,8 балла по сравнению с 76,6 баллами у GPT-4o и 71,1 баллами у Claude 3.5 Sonnet.
Модель набрала 88,6 баллов в тесте MMLU, который охватывает десятки предметов по математике, естественным наукам и гуманитарным наукам, в то время как GPT-4o набрал 88,7, а Claude 3,5 Sonnet - 88,3.
В своей статье исследователи Meta также рассказали о предстоящих "мультимодальных" версиях моделей, которые должны появиться позже в этом году и которые дополняют возможности изображения, видео и речи поверх базовой текстовой модели Llama 3.
По их словам, ранние эксперименты показывают, что эти модели могут конкурировать с другими мультимодальными моделями, такими как Google Gemini 1.5 и Anthropic Claude 3.5 Sonnet.
(За исключением заголовка, эта история не редактировалась сотрудниками NDTV и опубликована на синдицированном канале.)