Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Google DeepMind представила Gemini 2.5 — новое семейство моделей искусственного интеллекта, разработанных для того, чтобы «обдумывать» ответы на запросы. Первоначальный релиз, Gemini 2.5 Pro Experimental, возглавил рейтинг LMArena с тем, что Google называет «значительным отрывом», и продемонстрировал улучшенные способности к рассуждению при выполнении технических задач. Модель достигла 18,8% в Humanity's Last Exam без использования инструментов, превзойдя большинство конкурирующих флагманских моделей. В области математики она набрала 86,7% по AIME 2025 и 92,0% по AIME 2024 в одиночных попытках, а также достигла 84,0% по эталонному бенчмарку GPQA для научного рассуждения.
Для разработчиков Gemini 2.5 Pro демонстрирует улучшенные возможности кодирования с результатом 63,8% по SWE-Bench Verified при использовании пользовательской настройки агента, хотя этот результат ниже балла Claude 3.7 Sonnet от Anthropic, равного 70,3%. По Aider Polyglot для редактирования кода она набрала 68,6%, что, по утверждению Google, превосходит конкурирующие модели.
Подход к рассуждениям основан на предыдущих экспериментах Google с обучением с подкреплением и подсказками цепочки мыслей. Эти техники позволяют модели анализировать информацию, учитывать контекст и делать выводы, прежде чем предоставлять ответы.
Gemini 2.5 Pro поставляется с окном контекста объемом 1 миллион токенов (примерно 750 000 слов). Модель доступна немедленно в Google AI Studio и для подписчиков Gemini Advanced, а интеграция с Vertex AI планируется в ближайшие недели.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...