Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
В начале декабря Google DeepMind выпустила Genie 2. Семейство систем Genie представляет собой так называемые мировые модели. Они способны генерировать изображения по мере перемещения пользователя – человека или, скорее, автоматизированного ИИ-агента – в мире, симулируемом программным обеспечением. Получающееся видео с работой модели может напоминать видеоигру, но DeepMind всегда позиционировала Genie 2 как способ обучения других ИИ-систем для повышения эффективности их работы.
С новой моделью Genie 3, о которой лаборатория объявила во вторник, DeepMind считает, что она создала еще более совершенную систему для обучения ИИ-агентов. На первый взгляд, скачок между Genie 2 и 3 не столь значителен, как тот, который модель совершила в прошлом году. С Genie 2 система DeepMind стала способна генерировать 3D-миры и точно реконструировать часть окружающей среды, даже если пользователь или ИИ-агент покидали ее для исследования других частей сгенерированной сцены.
Последовательность окружающей среды часто была слабым местом предыдущих мировых моделей. Например, система Oasis от Decart испытывала трудности с запоминанием планировки уровней Minecraft, которые она генерировала. По сравнению с этим, улучшения, предлагаемые Genie 3, кажутся более скромными, но на брифинге для прессы, который Google провела перед сегодняшним официальным объявлением, Шломи Фрухтер (Shlomi Fruchter), директор по исследованиям DeepMind, и Джек Паркер-Холдер (Jack Parker-Holder), научный сотрудник DeepMind, утверждали, что они представляют собой важные шаги на пути к искусственному общему интеллекту.
Итак, что именно Genie 3 делает лучше? Прежде всего, она выводит видео в разрешении 720p, вместо 360p, как ее предшественница. Она также способна поддерживать "последовательную" симуляцию в течение более длительного времени. Genie 2 имела теоретический предел в 60 секунд, но на практике модель часто начинала "галлюцинировать" намного раньше. В отличие от этого, DeepMind заявляет, что Genie 3 способна работать несколько минут, прежде чем начнет создавать артефакты.
Новинкой модели является возможность, которую DeepMind называет "срабатываемые события в мире". Genie 2 была интерактивной настолько, что пользователь или ИИ-агент могли вводить команды движения, и модель реагировала после нескольких моментов на генерацию следующего кадра. Genie 3 выполняет эту работу в реальном времени. Более того, можно изменить симуляцию с помощью текстовых подсказок, которые инструктируют Genie изменить состояние генерируемого мира. В демонстрации, которую показала DeepMind, модели было предложено вставить стадо оленей в сцену, где человек катается на лыжах с горы. Олени двигались не совсем реалистично, но, по мнению DeepMind, это ключевая особенность Genie 3.
Как уже упоминалось, лаборатория в основном видит модель как инструмент для обучения и оценки ИИ-агентов. DeepMind заявляет, что Genie 3 можно использовать для обучения ИИ-систем решению сценариев "что, если", которые не охвачены их предварительным обучением. "Есть много вещей, которые должны произойти, прежде чем модель можно будет развернуть в реальном мире, но мы видим в этом способ более эффективного обучения моделей и повышения их надежности", - сказал Фрухтер, указав, например, на сценарий, в котором Genie 3 можно использовать для обучения самоуправляемого автомобиля безопасному объезду пешехода, выходящего на дорогу.
Несмотря на улучшения, которые DeepMind внесла в Genie, лаборатория признает, что предстоит еще многое сделать. Например, модель не может генерировать реальные местоположения с абсолютной точностью и испытывает трудности с рендерингом текста. Более того, для того чтобы Genie была действительно полезной, DeepMind считает, что модель должна быть способна поддерживать симулированный мир в течение часов, а не минут.
Тем не менее, лаборатория считает, что Genie готова оказать реальное влияние. "Мы уже на том этапе, когда вы не будете использовать [Genie] в качестве единственной учебной среды, но вы определенно сможете найти вещи, которые не захотите, чтобы агенты делали, потому что, даже если эти настройки не идеальны, все равно хорошо знать, если они действуют небезопасно в каких-то условиях", - сказал Паркер-Холдер. "Вы уже видите, к чему это идет. Это станет все более полезным по мере совершенствования моделей".
На данный момент Genie 3 не доступна широкой публике. Однако DeepMind заявляет, что работает над тем, чтобы сделать модель доступной дополнительным тестировщикам.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...