Вторник, 4 марта в 14:09 UTC+3
Загрузка...

Microsoft демонстрирует прогресс в создании игровых миров с поддержкой временной реальности с помощью искусственного интеллекта.


51Опубликовано 20.02.2025 в 05:32Категория: ИИИсточник
Изображение статьи

Многие исследователи искусственного интеллекта в последнее время работают над интеграцией так называемой «модели мира» в свои системы. Идеально такие модели могли бы на основе видеозаписи выводить имитацию поведения игровых объектов и персонажей, а затем создавать полноценную интерактивную видеоигру, основанную на этом понимании.

В новом исследовании Microsoft Research, опубликованном в журнале Nature, представлен World and Human Action Model (WHAM), который демонстрирует значительный прогресс в этой области. Однако это также показывает, что еще многое предстоит сделать до того момента, когда мечта о создании ИИ, способного генерировать полноценные игровые сцены на основе простых подсказок и видеозаписей, станет реальностью.

Почти как модель Genie от Google, WHAM начинает обучение на так называемом «истинном видеоигровом контенте» и входных данных, предоставленных реальными игроками. В данном случае данные были собраны из игры Bleeding Edge — четырёхна четырёхplr онлайн-файтинг, выпущенной в 2020 году компанией Ninja Theory, дочерней компанией Microsoft.

С помощью сбора видео реальных игроков с момента релиза игры (согласно пользовательскому соглашению), Microsoft собрала эквивалент семи лет игрового времени и дополнила его данными о действиях игроков. В начале обучения, как говорит Katja Hoffman (Хофман), модель легко путалась, генерируя несогласованные фрагменты, которые «вырождались в цветные пятна». Однако после 1 миллиона тренировочных обновлений модель WHAM начала демонстрировать базовое понимание сложных игровых взаимодействий, например, взрыва предмета после трёх атак игрока или действия, связанного с полётом определённого персонажа.

Согласно статье в Nature, результаты улучшались по мере того, как исследователи вкладывали больше вычислительных ресурсов и увеличивали размер модели.

Чтобы протестировать способность WHAM модели генерировать новые последовательности игры, Microsoft предоставила ей видео реальной игры длительностью одну секунду и попросила сгенерировать последующие кадры на основе новых симулированных вводов. Для проверки согласованности WHAM Microsoft использовал строки фактических вводов человека для генерации нового контента ИИ длиной до двух минут, а затем сравнил его с результатами реальной игры с помощью метрики Frechet видео расстояния.

Microsoft с гордостью заявляет, что вывод WHAM может сохранять широкую стабильность в течение двух минут без сбоев, а смоделированное видео высочайшим образом согласуется с реальным, даже когда предметы и среда входят или выходят из поля зрения. Это лучше, чем «долговременная память» модели Google Genie 2, которая по согласованности может поддерживать максимум одну минуту.

Microsoft также протестировал способность WHAM реагировать на ряд случайных вводов, не включённых в его тренировочные данные. Эти тесты показали, что модель, на основе комментариев людей к генерируемому контенту, может широко и адекватно интегрировать новое изображение в последующие кадры генерации и реагировать на входные данные игроков или движение камеры.

Согласно статье Nature, всего пять кадров с отредактированным новым объектом достаточно, чтобы он присутствовал в последующих кадрах 85% - 98% времени.

Это свидетельствует о том, что WHAM добился значительного прогресса в обработке персистентности и взаимодействий игровых объектов и персонажей.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.