Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Китайский стартап в области искусственного интеллекта Moonshot AI представил Kimi K2 – открытую языковую модель с триллионом параметров, которая превосходит GPT-4 в ключевых тестах, особенно демонстрируя высокую производительность в задачах кодирования и автономных агентов.
Новая модель, получившая название Kimi K2, имеет в общей сложности 1 триллион параметров, при этом 32 миллиарда параметров активированы в архитектуре "смесь экспертов". Компания выпускает две версии: базовую модель для исследователей и разработчиков, а также вариант, настроенный для чат-ботов и приложений автономных агентов. "Kimi K2 не просто отвечает, она действует", – заявила компания в своем блоге. "С Kimi K2 продвинутый агентный интеллект становится более открытым и доступным, чем когда-либо. Нам не терпится увидеть, что вы создадите".
Отличительной особенностью модели является ее оптимизация для "агентных" возможностей – способности автономно использовать инструменты, писать и выполнять код, а также решать сложные многоступенчатые задачи без вмешательства человека. В ходе тестирования Kimi K2 достигла точности 65,8% в SWE-bench Verified, сложном бенчмарке для разработки программного обеспечения, превзойдя большинство альтернативных моделей с открытым исходным кодом и сравнившись с некоторыми проприетарными моделями.
На LiveCodeBench, вероятно, самом реалистичном бенчмарке для кодирования, Kimi K2 показала точность 53,7%, уверенно обойдя DeepSeek-V3 (46,9%) и GPT-4.1 (44,7%). Еще более впечатляющим является результат в 97,4% в MATH-500 по сравнению с 92,4% у GPT-4.1, что позволяет предположить, что Moonshot нашла некое фундаментальное решение в области математического рассуждения, которое ускользнуло от более крупных и лучше финансируемых конкурентов.
Однако, что не отражают бенчмарки: Moonshot достигает этих результатов с моделью, стоимость обучения и инференса которой значительно ниже, чем у лидеров отрасли. В то время как OpenAI тратит сотни миллионов долларов на вычисления для постепенных улучшений, Moonshot, похоже, нашла более эффективный путь к той же цели. Это классическая дилемма новатора, разворачивающаяся в реальном времени – дерзкий претендент не просто соответствует производительности лидера, он превосходит его, делая это быстрее и дешевле.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...