Загрузка...

Meta уличили в подтасовке результатов тестов ИИ

136Опубликовано 08.04.2025 в 05:26Категория: ИИИсточник

В минувшие выходные Meta выпустила две новые модели Llama 4: компактную модель под названием Scout и Maverick, среднюю модель, о которой компания заявляет, что она превосходит GPT-4o и Gemini 2.0 Flash «по широкому спектру общепризнанных бенчмарков».

Maverick быстро занял второе место на LMArena, сайте для тестирования ИИ, где люди сравнивают выходы из разных систем и голосуют за лучший. В пресс-релизе Meta компания подчеркнула ELO-рейтинг Maverick в 1417 баллов, что поставило его выше OpenAI's 4o и чуть ниже Gemini 2.5 Pro. (Более высокий ELO-рейтинг означает, что модель чаще побеждает на арене при прямом противостоянии с конкурентами.)

Это достижение, казалось бы, позиционировало открытую модель Llama 4 от Meta как серьезного претендента на первенство среди закрытых моделей от OpenAI, Anthropic и Google. Затем исследователи ИИ, изучавшие документацию Meta, обнаружили нечто необычное.

В мелким шрифтом Meta признает, что версия Maverick, протестированная на LMArena, отличается от той, которая доступна публике. Согласно собственным материалам Meta, она развернула на LMArena «экспериментальную версию чата» Maverick, которая была специально «оптимизирована для разговорности».

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...