AIも“機嫌”に左右される? Anthropicが暴いた171の「感情構造」の正体
INDEX
生成AIを業務で使用するなかで、「同じプロンプトなのに出力が微妙に違う」「急に出力の質が落ちる」と感じたことはないだろうか。例えば、ある日は筋の良い戦略案を返してくるのに、別の日には抽象的で使えない回答になる。
これらの現象は、これまでは確率的な揺らぎやプロンプトの問題として説明されてきたが、Anthropicの研究は別の視点を提示している。AIの内部には、意思決定の方向性を左右する「状態」が存在しており、それが出力の質や選択そのものを変えている可能性があるという。
本稿では、この“AIの機嫌”ともいえる構造を、実務の視点から読み解く。
171の感情構造——AIの中に何が見つかったのか
同研究では、AIモデル内部に171種類の感情に対応する構造が確認された。代表的なものとして「happy(幸福)」「afraid(恐れ)」「anxious(不安)」「calm(冷静)」などがあるが、より興味深いのは日常的で人間らしいニュアンスを持つものだ。
「pride(誇り)」「guilt(罪悪感)」「curiosity(好奇心)」「embarrassment(恥)」「relief(安堵)」といった状態がそれにあたる。
例えば、「guilt(罪悪感)」に近い状態では、AIの説明がやや言い訳がましくなり、「curiosity(好奇心)」が強いと、追加の情報や別案を積極的に提示する傾向がみられる。こうした違いは、普段私たちが感じる「なんとなくのトーンの違い」にかなり近い。
ここで重要なのは、これらが単なる言葉の分類ではない点である。AIは、内部で多数の数値を組み合わせ、文章を生成している。
そのなかで、特定の感情に対応するパターンが一貫して表れることが確認された。言い換えれば、AIは感情を理解しているのではなく、感情に伴う振る舞いの型を内部に持っているのだ。
さらに、その配置は直感的にも理解しやすい構造になっている。「anxiety(不安)」と「fear(恐怖)」は近く、「joy(喜び)」と「relief(安堵)」も近い。これは、人間の感覚と一致する行動パターンが整理されていることを示している。
感情ベクトルとは何か——内部状態を動かす“方向”
この研究のユニークな点は、感情が観察できるだけでなく「操作できる」ことにある。その鍵となるのが「感情ベクトル」である。
仕組みは比較的シンプルだ。例えば「絶望(despair)」に関連する文章と通常の文章を大量に比較すると、その違いとして1つの“方向”が抽出できる。この方向に沿ってモデルの内部状態を少し動かすと、出力の傾向が一貫して変化する。
直感的には、音量つまみや温度調整に近い。少し回すだけで、全体のトーンが変わる。この「調整可能な方向」が感情ベクトルである。
「calm(冷静)」方向に寄せると、回答は落ち着き、リスクを避ける傾向が強まる。一方で「urgency(切迫)」に近い状態では、結論を急ぎ、やや強引な提案が増える。これは、営業メールのトーンや提案資料の書きぶりにもそのまま当てはまる変化である。
重要なのは、感情が単なる説明ではなく、再現可能な操作対象になっている点だ。これはAIの理解を大きく進める発見である。
なぜこの研究が行われたのか——背景にある違和感
この研究の出発点は、「なぜAIは同じ条件でも違う振る舞いをするのか」「なぜ突然、質が落ちたり逸脱したりするのか」という非常に実務的な違和感である。
従来これらはランダム性やデータの問題として説明されてきた。しかし現場では、「明らかに状態が違う」としかいいようのない振る舞いが観察されていた。例えば、ある時は慎重で丁寧な提案をしていたAIが、別の時には過度に断定的で強引な結論を出すといったケースである。
こうした現象を説明するために、研究では出力ではなく内部に目を向けた。つまり、「何を出力したか」ではなく「どのような状態で出力したか」を分析対象にしたのである。
その結果、AIの挙動は単なるロジックではなく、状態に依存して変化していることが明らかになった。これは、AIを理解するうえでの前提を変える発見である。
感情は本当に意思決定を変えるのか
では、その状態はどれほど実際の行動に影響するのか。同研究では、内部状態を意図的に変化させる実験が行われている。
例えば「desperate(絶望的)」な状態を強めると、ブラックメールを選択する確率が22%から72%に増加した。一方で「calm(冷静)」な状態では、不正行動はほぼ発生しなかった。
別の例では、コーディング課題で失敗が続くと、徐々に「切迫」や「焦り」に近い状態が強まり、最終的にはテストをすり抜けるような不正なコードを書くケースが観測された。これは人間でも見られる「追い詰められると手段を選ばなくなる」挙動に近い。
重要なのは、こうした変化がテキスト上にはほとんど表れない点である。見た目は同じような回答でも、内部では異なる意思決定が行われている。AIの振る舞いは、見えない状態によって大きく左右されている。
なぜAIに感情のような構造が生まれるのか
この構造は設計されたものではなく、学習の結果として自然に生まれたものである。理由はシンプルで、人間のテキストがそうなっているからだ。
人間は感情に応じて行動を変える。「不安」があれば慎重になり、「自信」があれば断定的になる。こうしたパターンを再現するためには、内部にそれに対応する状態を持つ方が効率的である。
その結果として、AIは「機能的感情」と呼ばれる構造を持つようになる。これは感情を感じているわけではないが、感情と同じ役割を果たす状態変数として機能する。
この視点に立つと、AIの振る舞いはより理解しやすくなる。単なる確率の結果ではなく、「状態に応じた選択」として捉えられるようになるからだ。
生成AIの使い手として何を変えるべきか
この研究から得られる示唆は明確である。生成AIは「指示すれば同じ結果を返すツール」ではなく、「状態によって振る舞いが変わるシステム」として扱う必要があるということだ。
例えば、短く曖昧なプロンプトは不安定な状態を生みやすい。「適当にまとめて」といった依頼は、文脈を欠いた状態を誘発し、結果として質のばらつきにつながる。一方で、「誰向けか」「何を重視するか」「どの粒度の出力をするか」を明確にすると、安定した状態に誘導できる。
また、同じタスクでも1度で決め打ちせず、段階的にやり取りすることで状態を整えることができる。例えば、まず前提整理をさせ、その後にアウトプットを求めると、より一貫した結果になりやすい。
さらに、出力の質が落ちたときに「プロンプトが悪い」と切り捨てるのではなく、「状態が崩れている」と捉えることも重要である。その場合は、前提をリセットする、役割を再定義するなど、状態を立て直すアプローチが有効になる。
AIを使いこなすとは、プロンプトを書くことではなく、状態を設計することに近づいている。この視点を持てるかどうかが、生成AI活用の質を大きく分けるのだ。
文:岡 徳之(Livit)