Воскресенье, 20 апреля в 03:26 UTC+3
Загрузка...

Meta уличили в подтасовке результатов тестов ИИ


22Опубликовано 08.04.2025 в 05:26Категория: ИИИсточник
Изображение статьи

В минувшие выходные Meta выпустила две новые модели Llama 4: компактную модель под названием Scout и Maverick, среднюю модель, о которой компания заявляет, что она превосходит GPT-4o и Gemini 2.0 Flash «по широкому спектру общепризнанных бенчмарков».

Maverick быстро занял второе место на LMArena, сайте для тестирования ИИ, где люди сравнивают выходы из разных систем и голосуют за лучший. В пресс-релизе Meta компания подчеркнула ELO-рейтинг Maverick в 1417 баллов, что поставило его выше OpenAI's 4o и чуть ниже Gemini 2.5 Pro. (Более высокий ELO-рейтинг означает, что модель чаще побеждает на арене при прямом противостоянии с конкурентами.)

Это достижение, казалось бы, позиционировало открытую модель Llama 4 от Meta как серьезного претендента на первенство среди закрытых моделей от OpenAI, Anthropic и Google. Затем исследователи ИИ, изучавшие документацию Meta, обнаружили нечто необычное.

В мелким шрифтом Meta признает, что версия Maverick, протестированная на LMArena, отличается от той, которая доступна публике. Согласно собственным материалам Meta, она развернула на LMArena «экспериментальную версию чата» Maverick, которая была специально «оптимизирована для разговорности».

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.