Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Новейшие модели рассуждений от OpenAI, o3 и o4-mini, демонстрируют более высокую склонность к галлюцинациям, чем предыдущие системы искусственного интеллекта компании, согласно как внутреннему тестированию, так и исследованиям независимых экспертов.
В тесте OpenAI PersonQA, модель o3 выдавала галлюцинации в 33% случаев – это вдвое больше, чем у более старых моделей o1 (16%) и o3-mini (14.8%). Модель o4-mini показала еще более низкий результат, генерируя галлюцинации в 48% случаев. Некоммерческая лаборатория искусственного интеллекта Transluce обнаружила, что o3 фабрикует процессы, которые, по ее утверждению, использует, включая запуск кода на MacBook Pro 2021 года "вне ChatGPT". Доцент Стэнфордского университета Киан Катанфуруш (Kian Katanforoosh) отметил, что его команда обнаружила, что o3 часто генерирует неработающие ссылки на веб-сайты.
В своем техническом отчете OpenAI заявляет, что "необходимы дальнейшие исследования", чтобы понять, почему галлюцинации усиливаются по мере масштабирования моделей рассуждений.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...