Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
В минувшие выходные Meta выпустила две новые модели Llama 4: компактную модель под названием Scout и Maverick, среднюю модель, о которой компания заявляет, что она превосходит GPT-4o и Gemini 2.0 Flash «по широкому спектру общепризнанных бенчмарков».
Maverick быстро занял второе место на LMArena, сайте для тестирования ИИ, где люди сравнивают выходы из разных систем и голосуют за лучший. В пресс-релизе Meta компания подчеркнула ELO-рейтинг Maverick в 1417 баллов, что поставило его выше OpenAI's 4o и чуть ниже Gemini 2.5 Pro. (Более высокий ELO-рейтинг означает, что модель чаще побеждает на арене при прямом противостоянии с конкурентами.)
Это достижение, казалось бы, позиционировало открытую модель Llama 4 от Meta как серьезного претендента на первенство среди закрытых моделей от OpenAI, Anthropic и Google. Затем исследователи ИИ, изучавшие документацию Meta, обнаружили нечто необычное.
В мелким шрифтом Meta признает, что версия Maverick, протестированная на LMArena, отличается от той, которая доступна публике. Согласно собственным материалам Meta, она развернула на LMArena «экспериментальную версию чата» Maverick, которая была специально «оптимизирована для разговорности».
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...