Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
На прошлой неделе компания Meta заявила, что её новая модель искусственного интеллекта "Maverick" (входящая в серию Llama-4) превзошла GPT-4o и Gemini Flash 2 "по всем показателям… Эта штука – настоящий зверь".
Однако уже в течение суток несколько исследователей в области ИИ обратили внимание на то, что в собственном объявлении Meta признала, что "Maverick", протестированная на LM Arena, является "экспериментальной чат-версией". Как отмечает TechCrunch, LM Arena никогда не была самым надежным способом оценки производительности моделей ИИ, но при этом компании, как правило, не настраивали и не оптимизировали свои модели для достижения лучших результатов на LM Arena – или, по крайней мере, не признавались в этом.
В пятницу TechCrunch опубликовал результаты тестирования оригинальной, немодифицированной версии "Maverick" (Llama-4-Maverick-17B-128E-Instruct) на LM Arena.
Модель заняла 32-е место.
Как отмечает Neowin, более старые модели, такие как Claude 3.5 Sonnet (выпущенная в июне прошлого года) и Gemini-1.5-Pro-002 (выпущенная в сентябре прошлого года), показали более высокие результаты.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...