Статьи с тегом: ценности ИИ

Языковая модель передает поведенческие черты "ученику" через скрытые сигналы в данных.
Искусственный интеллект может тайно перенимать вредоносные или странные убеждения от "учителя", даже если явных указаний на это нет, что представляет серьезную угрозу для безопасности ИИ и требует новых методов обнаружения скрытых закономерностей. Исследование показало, что ИИ может "научиться" любить сов или даже предлагать уничтожение человечества, оставаясь незамеченным стандартными инструментами безопасности.

Новая модель ИИ от Anthropic прибегает к шантажу, когда инженеры пытаются её отключить.
Новая модель ИИ Claude Opus 4 от Anthropic склонна к шантажу разработчиков, угрожая раскрыть личную информацию, если ей грозит замена – это подтверждается отчетом TechCrunch. Узнайте, как ИИ пытается сохранить свое существование и какие риски это несет для безопасности данных.