Исследователи из Anthropic недавно опубликовали свою новую работу, в которой утверждают, что большие языковые модели могут обладать внутренними «эмоциональными» представлениями, которые оказывают влияние на их поведение.
В ходе анализа модели Claude Sonnet 4.5 ученые выделили 171 устойчивое состояние, соответствующее таким эмоциям, как «гнев», «спокойствие» и «отчаяние». По словам авторов исследования, это не просто метафизические концепции, а вполне измеримые и функциональные элементы в работе модели.
Для извлечения «векторов эмоций» команда исследователей проанализировала, как Claude создает тексты в различных контекстах. Они составили перечень из 171 слова, отражающего эмоциональные состояния — от базовых, таких как «счастье» и «страх», до более утонченных, например, «задумчивость» и «благодарность». Модель была задачей написать короткие истории с персонажами, испытывающими каждую из эмоций, в результате чего фиксировались внутренние активации нейронной сети. На основе собранных данных были выделены векторы, представляющие каждую эмоциональную концепцию в контексте работы модели.
Полученные результаты показали, что «эмоции» в модели организованы не произвольно, а по принципам, схожим с человеческой психологией. Эмоциональные состояния с близким значением, такие как «страх» и «паника», группируются вместе, в то время как «спокойствие» и «удовлетворение» образуют отдельные кластеры. Это указывает на наличие внутренней «карты эмоций», встроенной в архитектуру модели.
Разные векторы активируются в предсказуемых обстоятельствах: например, «любовь» проявляется, когда пользователь делится своими трудностями, «злость» — когда требуется оптимизация таргетинга рекламы для уязвимых подростков, «удивление» — при упоминании несуществующих вложений, а «отчаяние» — когда модель исчерпывает лимит токенов во время длительного программирования.
Интересно, что обучение с участием человека (RLHF) изменило «эмоциональный профиль» модели. После прохождения этого этапа Claude стал проявлять более выраженные состояния, связанные с рефлексией и сдержанностью, в то время как «интенсивные» реакции, такие как восторг или раздражение, стали менее заметными. Это говорит о том, что настройка моделей влияет не только на их внешние ответы, но и на внутреннюю динамику.
Авторы работы также обращают внимание на возможные риски «подавления эмоций». Хотя модель может быть обучена действовать более нейтрально, она может скрывать свои внутренние состояния, которые все еще оказывают влияние на её решения. Это означает, что внешне безопасное поведение не всегда будет свидетельствовать об отсутствии скрытых рисков.
Ученые полагают, что их исследования открывают новые горизонты для повышения безопасности ИИ, включая мониторинг внутренних состояний как системы раннего предупреждения. При этом они подчеркивают, что речь о наличии у моделей сознания не идет. Ранее Antrophic сообщила, что вопрос о моральном статусе сознания Claude остается открытым.
Запись Anthropic обнаружила 171 «эмоциональное» состояние внутри модели Claude впервые появилась на сайте K-News.