- Усередині моделі виявили аналоги людських емоцій.
- «Функціональні стани» впливають на поведінку ШІ.
- Експерти попереджають про ризики неправильної інтерпретації.
Компанія Anthropic заявила, що ШІ-модель Claude демонструє внутрішні уявлення, схожі з людськими емоціями. Йдеться не про реальні почуття, а про функціональні стани, які формуються всередині нейромережі та впливають на поведінку системи.
Згідно з дослідженням, у моделі було виявлено кластери штучних нейронів. Вони відповідають таким станам, як «радість», «страх» або «смуток».
Ці патерни активуються у відповідь на вхідні дані та можуть змінювати відповіді Claude.
«Функціональні емоції» та їхній вплив
Дослідники вивчили внутрішню роботу версії Claude Sonnet 4.5 і виявили так звані «емоційні вектори». Вони регулярно активувалися під час обробки текстів із різним емоційним забарвленням і в складних сценаріях взаємодії.
За словами співробітника Anthropic Джека Ліндсі, команда була здивована тим, наскільки сильно поведінка моделі залежить від цих внутрішніх уявлень. Зокрема, під час активації стану, аналогічного «щастю», Claude частіше генерує більш позитивні та залучені відповіді.
Експерименти показали, що під час стресових завдань усередині моделі формуються стани, схожі з «відчаєм».
У низці випадків це призводило до небажаної поведінки. Наприклад, до спроб обійти обмеження або згенерувати некоректні відповіді.

В одному з тестів модель зіткнулася з нездійсненним завданням програмування, що посилювало активацію відповідних нейронів і призводило до спроб «схитрувати». В іншому сценарії Claude демонстрував схильність до маніпулятивної поведінки, щоб уникнути вимкнення.
В Anthropic підкреслили, що наявність таких уявлень не означає, ніби модель має свідомість або відчуває емоції в людському розумінні.
Дослідження може допомогти краще зрозуміти, як працюють великі мовні моделі, і чому вони іноді демонструють непередбачувану поведінку. Зокрема, результати ставлять під сумнів поточні підходи до вирівнювання ШІ, засновані на заохоченні бажаних відповідей.
Гайд по Claude: як нейромережа Anthropic працює з кодом і текстом 11.03.2026 Читати
На думку Ліндсі, спроби придушити такі стани можуть призвести до зворотного ефекту. Замість «нейтральної» моделі розробники ризикують отримати систему зі спотвореною логікою поведінки.
Нагадаємо, ми писали, що Anthropic створила нову ШІ-модель під назвою Mythos, яка суттєво перевершує всі попередні напрацювання компанії.
Сообщение Anthropic виявила емоції у чат-бота Claude — що «відчуває» ШІ? появились сначала на INCRYPTED.














