Статьи с тегом: тестирование ИИ

OpenAI озадачена тем, что в новых моделях наблюдается рост числа случаев «галлюцинаций».
Новые модели OpenAI склонны к "галлюцинациям" — выдаче недостоверной информации — вдвое чаще, чем предыдущие версии. Эксперты отмечают, что более продвинутые системы, такие как o3 и o4-mini, фабрикуют факты и генерируют неработающие ссылки, что требует дальнейшего изучения причин этой проблемы.

После обвинений в нечестной игре со стороны Meta, протестирована модель Llama 4 Maverick без изменений — занимает 32-е место.
Meta допустила преувеличение возможностей своей новой модели ИИ "Maverick". После заявлений о превосходстве над лидерами рынка, независимые тесты показали, что "Maverick" занимает лишь 32-е место, уступая даже моделям прошлого года. Узнайте правду о возможностях ИИ и не дайте себя обмануть громкими заявлениями!

Модели искусственного интеллекта пока испытывают трудности с отладкой программного обеспечения, показало исследование Microsoft
Современные модели ИИ, включая Claude 3.7 Sonnet и o3-mini, показывают скромные результаты в решении задач по отладке кода, что доказывает, что ИИ еще не может полностью заменить человеческих разработчиков.

"Gemini" появится в Google Календаре: как это будет работать и как попробовать прямо сейчас
Теперь вы можете использовать искусственный интеллект Gemini для управления своим календарем Google Calendar: задавайте вопросы о событиях, планируйте встречи и получайте быстрые ответы.

После того, как режим голосового ввода ChatGPT стал бесплатным, стоит ли еще платить за ChatGPT Plus?
Бесплатный голосовой режим ChatGPT теперь доступен всем, но платная версия ChatGPT Plus предлагает более мощную модель ИИ, больший лимит времени использования и дополнительные функции.

Я сравнил приложение Le Chat от Mistral AI с ChatGPT, и оно превзошло все ожидания
Европейский чат-бот Le Chat от Mistral AI предлагает альтернативу ChatGPT и Google Gemini, демонстрируя впечатляющие возможности в задачах, таких как помощь в социальной жизни, решение загадок и объяснение сложных тем.

Я попробовал "Глубокие исследования" от Perplexity, и они не оправдывают исследовательский потенциал ChatGPT
Новые функции Deep Research от OpenAI и Perplexity позволяют получить глубокие и структурированные ответы на сложные вопросы, анализируя огромные объемы информации в интернете.

После тестирования Copilot сотрудники правительства сочли ИИ от Microsoft менее полезным, чем они ожидали.
Департамент казначейства Австралии выяснил, что Microsoft Copilot окупает вложенные средства, но сотрудники считают его менее полезным для выполнения рабочих задач, чем предполагалось. В среднем они используют ассистента 2-3 раза в неделю.