Загрузка...

Новый робот от Google умеет складывать сложную оригами и застегивать молнии на пакетах

82Опубликовано 13.03.2025 в 01:28Категория: ИИИсточник

Анонимный читатель приводит цитату из отчета Ars Technica: В среду Google DeepMind объявила о двух новых моделях искусственного интеллекта, предназначенных для управления роботами: Gemini Robotics и Gemini Robotics-ER. Компания утверждает, что эти модели помогут роботам разнообразных форм и размеров лучше понимать и взаимодействовать с физическим миром, чем предыдущие системы, что открывает пути для применения в виде антропоморфных помощников-роботов.

Новые модели Google строятся на основе своего крупного языкового модели Gemini 2.0 и добавляют специальные возможности для робототехнических применений. В модели Gemini Robotics включены функции, которые компания называет "визуально-языково-действенными" (VLA), что позволяет ей обрабатывать зрительную информацию, понимать команды на языке и генерировать физические движения. Наоборот, Gemini Robotics-ER сосредоточена на "внедренном мышлении", с улучшенным пространственным пониманием, что позволяет робототехникам интегрировать её в существующие системы управления роботами. Например, с помощью Gemini Robotics можно попросить робота "поднять банан и положить его в корзину", и он будет использовать камерное изображение для распознавания банана и успешного выполнения задачи при помощи механической руки. Или вы можете сказать: "сложи оригами лису", и модель использует свои знания об оригами и способность аккуратно складывать бумагу, чтобы выполнить задание.

В 2023 году мы писали о модели Google RT-2, которая представляла значительный шаг в направлении более универсальных робототехнических возможностей за счет использования интернет-данных для понимания команд на языке и адаптации к новым сценариям. В результате производительность модели увеличилась вдвое по сравнению с предшественником при выполнении новых задач. Спустя два года, Gemini Robotics кажется, делает ещё один значительный шаг вперёд, не только в понимании того, что нужно делать, но и в выполнении сложных физических манипуляций, которые RT-2 не могла выполнять. В отличие от модели RT-2, которая была ограничена повторным использованием уже практикованных движений, Gemini Robotics демонстрирует значительное улучшение ловкости, что позволяет выполнять ранее невозможные задачи, такие как складывание оригами или упаковка закусок в пакеты Zip-loc. Этот переход от роботов, которые просто понимают команды, к роботам, способным выполняться тонких физических действий, может свидетельствовать о том, что DeepMind начала решать одну из крупнейших проблем в области робототехники: как сделать так, чтобы роботы превращали свои "знания" в точные и осторожные движения в реальном мире. DeepMind утверждает, что Gemini Robotics "повышает производительность более чем вдвое по сравнению с другими передовыми моделями визуально-языково-действенных систем на комплексной обобщающей шкале".

Google продвигает эти усилия через партнерство с Apptronik для разработки следующего поколения антропоморфных роботов, управляемых Gemini 2.0. Точные сроки доступности или специфические коммерческие применения новых моделей ИИ не были предоставлены.

Google DeepMind искусственный интеллект робототехника Gemini Robotics визуально-языково-действенные системы антропоморфные роботы технологические новости инновации в ИИ управление роботами