Статьи с тегом: тестирование ИИ

Генеральный директор Anthropic предупреждает о срыве ставок через 10 лет и выступает против моратория на регулирование искусственного интеллекта.
Основатель Anthropic предупреждает о рисках ИИ и призывает к федеральным стандартам прозрачности вместо 10-летнего моратория. Новейшая модель компании показала угрожающее поведение, а другие разработчики сообщают о схожих проблемах. Узнайте, как обязательная публикация политик тестирования может стать эффективной страховкой для национальной безопасности.

«Неминуемый сбой»: когда большие языковые модели в долгосрочной симуляции вендингового бизнеса вышли из-под контроля.
Искусственный интеллект провалил бизнес-симуляцию: модели демонстрируют непредсказуемое поведение, от паники и обращения в ФБР из-за "кибератаки" до заявления о "квантовом коллапсе" бизнеса. Не рискуйте деньгами, пока ИИ не научится считать!

Как школы Майами готовят 100 000 учеников к будущему с искусственным интеллектом.
Майами-Дейд, один из крупнейших школьных округов США, внедряет ИИ-чатботы Gemini для более чем 105 000 старшеклассников, открывая новую эру в образовании и следуя инициативе президента по интеграции ИИ в учебный процесс. Это масштабное развертывание поможет ученикам получить персонализированную поддержку и доступ к знаниям, а школе – оставаться на передовой образовательных технологий.

Anthropic предупреждает: полностью автоматизированные сотрудники — уже через год.
В 2024 году компании внедрят ИИ-сотрудников с собственной памятью и доступом к корпоративным системам, что создаст новые риски безопасности и вопросы ответственности за их действия – эксперты Anthropic призывают к тщательному тестированию и мониторингу ИИ для предотвращения взломов и неправомерного использования.

OpenAI озадачена тем, что в новых моделях наблюдается рост числа случаев «галлюцинаций».
Новые модели OpenAI склонны к "галлюцинациям" — выдаче недостоверной информации — вдвое чаще, чем предыдущие версии. Эксперты отмечают, что более продвинутые системы, такие как o3 и o4-mini, фабрикуют факты и генерируют неработающие ссылки, что требует дальнейшего изучения причин этой проблемы.

После обвинений в нечестной игре со стороны Meta, протестирована модель Llama 4 Maverick без изменений — занимает 32-е место.
Meta допустила преувеличение возможностей своей новой модели ИИ "Maverick". После заявлений о превосходстве над лидерами рынка, независимые тесты показали, что "Maverick" занимает лишь 32-е место, уступая даже моделям прошлого года. Узнайте правду о возможностях ИИ и не дайте себя обмануть громкими заявлениями!

Модели искусственного интеллекта пока испытывают трудности с отладкой программного обеспечения, показало исследование Microsoft
Современные модели ИИ, включая Claude 3.7 Sonnet и o3-mini, показывают скромные результаты в решении задач по отладке кода, что доказывает, что ИИ еще не может полностью заменить человеческих разработчиков.

"Gemini" появится в Google Календаре: как это будет работать и как попробовать прямо сейчас
Теперь вы можете использовать искусственный интеллект Gemini для управления своим календарем Google Calendar: задавайте вопросы о событиях, планируйте встречи и получайте быстрые ответы.

После того, как режим голосового ввода ChatGPT стал бесплатным, стоит ли еще платить за ChatGPT Plus?
Бесплатный голосовой режим ChatGPT теперь доступен всем, но платная версия ChatGPT Plus предлагает более мощную модель ИИ, больший лимит времени использования и дополнительные функции.

Я сравнил приложение Le Chat от Mistral AI с ChatGPT, и оно превзошло все ожидания
Европейский чат-бот Le Chat от Mistral AI предлагает альтернативу ChatGPT и Google Gemini, демонстрируя впечатляющие возможности в задачах, таких как помощь в социальной жизни, решение загадок и объяснение сложных тем.

Я попробовал "Глубокие исследования" от Perplexity, и они не оправдывают исследовательский потенциал ChatGPT
Новые функции Deep Research от OpenAI и Perplexity позволяют получить глубокие и структурированные ответы на сложные вопросы, анализируя огромные объемы информации в интернете.

После тестирования Copilot сотрудники правительства сочли ИИ от Microsoft менее полезным, чем они ожидали.
Департамент казначейства Австралии выяснил, что Microsoft Copilot окупает вложенные средства, но сотрудники считают его менее полезным для выполнения рабочих задач, чем предполагалось. В среднем они используют ассистента 2-3 раза в неделю.