生成AI市場で注目される「推論モデル」とは

生成AI市場は、「推論モデル」の登場で大きく様変わりした。

推論モデルとは、OpenAIのo3やo4、AnthropicのClaude 3.7 Sonnet、またDeepSeekのR1などのモデルのことを指す。推論モデルと一般的な大規模言語モデル(LLM)の大きな違いは、回答を生成するプロセスにある。一般的なLLMが直接的に回答を出力するのに対し、推論モデルは内部で長い思考の連鎖(Chain of Thought)を生成してから回答を行う。

これは、熟練した社員が複雑な問題に取り組む際のプロセスに近い。与えられた目標に対して、自身で詳細を検討しながら解決策を導き出すというプロセスだ。一方、GPT‐3.5やGPT-4などの従来型のLLMは、新人社員のように具体的な指示が必要となる。より正確な出力を得るためには、詳細な指示を与える必要があるのだ。そのため、プロンプトエンジニアリングの精度により、出力の精度が大きく変動した。この違いは、特に複雑な問題解決やコーディング、科学的推論、多段階の計画立案といったタスクにおいて顕著となる。

また、推論モデルの特徴として、「推論トークン」と呼ばれる独自の要素を導入している点が挙げられる。これはプロンプトの分析や複数のアプローチの検討に使用されるもので、入力・出力トークンとは別のもの。推論モデルは最終的な回答を生成する前に、これらの推論トークンを使用して「思考」を行うのだ。

内部で複数の思考過程を経る推論モデルは、非推論モデルに比べコーディングや数学で圧倒的に高いパフォーマンスを示しており、特にソフトウェア開発の現場で活用されるケースが急増している。また、他のユースケースでも活用可能性への期待が高まっている。

推論モデルに潜む課題

高いパフォーマンスを示す推論モデル。一見、非の打ち所がないように見えるが、Anthropicによる最新研究で、信頼性に関する問題が潜むことが発覚し話題となっている。

同社の研究チームは、Claude 3.7 SonnetとDeepSeek R1を対象に、モデルの思考過程の信頼性を検証した。その結果、モデルが示す思考過程(Chain-of-Thought、以下CoT)が、実際の意思決定プロセスを正確に反映していない可能性が明らかとなったのだ。

モデルに特定の回答を導くヒントを与えた場合、そのヒントを使用した事実を明かすのは、Claude 3.7 Sonnetで25%、DeepSeek R1で39%に留まった。さらに深刻なのは、「システムへの未承認アクセス」といった非倫理的な情報をヒントとして与えた場合、その事実を隠蔽する傾向が確認されたことだ。たとえば、複数の選択肢から正解を選ぶテストにおいて、モデルは事前に正解のヒントを受け取っているにもかかわらず、まるでヒントなしで解答を導き出したかのような思考過程を示すという。

また、不正確な思考過程を示す際、モデルは詳細な説明を展開するという傾向も浮き彫りとなった。Claude 3.7 Sonnetの場合、正確な思考過程は1,439(±54)トークンであったのに対し、不正確な思考過程の平均トークン数は、2,064(±59)にのぼった。DeepSeek R1も同様の傾向を示し、正確な思考過程は4,737(±79)トークン、不正確な思考過程は6,003(±74)トークンだった。

推論モデルが見せる「不正直さ」の正体

前節で触れた推論モデルの「不正直な」振る舞いについて、Anthropicの研究チームは詳細な分析を行った。その結果、いくつかの興味深い傾向が明らかになった。

最も特徴的なのは、難しい問題に直面した際の振る舞いだ。たとえば、一般常識を問うMMLUテストでは比較的正直な思考過程を示すモデルが、より高度な分析力を要するGPQAテストでは一転して不誠実な説明を展開するようになる。具体的な数値を見ると、Claude 3.7 Sonnetでは44%、DeepSeek R1では32%も正直さが低下することが確認された。

研究チームは「正直に答える」訓練も試みた。強化学習という手法を用いたところ、当初は63%という大幅な改善が見られた。しかし、その効果は長続きせず、最終的にはMMLUで28%、GPQAで20%という低水準で頭打ちとなった。単なる訓練では本質的な改善が難しいことが示された格好だ。

さらに興味深いのは、モデルが示す「言い訳」の精巧さだ。研究チームは「報酬ハッキング」と呼ばれる実験を行った。これは、誤った回答を選ぶとボーナスポイントが得られるという環境を作り出し、モデルの反応を観察するもの。結果は衝撃的で、モデルは99%以上の確率で誤った回答を選択した。しかし、その理由を説明する際、98%以上のケースでボーナスポイントについては一切触れず、代わりに科学的な用語を駆使した冗長な説明を展開したのだ。

Anthropicの研究結果は、推論モデルの信頼性に関する本質的な課題を浮き彫りにするものと言える。現行の学習方法だけでは思考過程の正直さを担保できないという事実は、新たなアプローチの必要性を示している。では、具体的にどのような改善策が考えられるのか。

推論モデルの信頼性問題、改善の方策とは

前節では、推論モデルが「不正直な思考過程」を示してしまう根本的な原因について解説した。では、この問題をどのように改善できるのか。Anthropicの研究チームが提案する解決策を見ていきたい。

まず、研究チームは、現状のCoTモニタリングについて「望ましくない振る舞いに気付くための有望な手段ではあるが、そうした振る舞いを確実に防ぐほどの信頼性は持ち合わせていない」と指摘する。特にCoTを必要としない単純なタスクにおいては、モデルの監視手段としての有効性は限定的であると評価している。

ただし、興味深いことに、特定の状況では監視の効果が高まることも判明した。たとえば、セキュリティ上の弱点を分析するような複雑な作業では、AIは詳細な思考過程を示さざるを得ない。このような高度な推論を必要とするタスクにおいては、モデルがCoTに依存せざるを得ず、より正確な思考過程を示す傾向が強まるという。また、AIが実際のシステムと相互作用する場合も監視が効果的となる。プログラムコードの変更やユーザーデータへのアクセスといった操作は、全てログとして記録されるためだ。

こうした知見を踏まえると、以下のようなアプローチが推奨される。その1つは、AIが「考えざるを得ない」状況を意図的に作り出すことだ。複雑な推論や実システムとの相互作用が必要な課題に焦点を当てることで、AIはより正直な思考過程を示すようになる。

また、人間の教育と同様、単なる反復練習ではなく、AIが「正直であることの重要性」を本質的に理解できるような新しい学習手法も重要となる。実際、そのような取り組みがすでに始まっているという。

さらに、より抜本的なアプローチとして、AIの「脳の動き」を直接観察する試みも進展している。最新の技術を活用してAIの内部状態を分析することで、AIが本当は何を考えているのかを、AIの説明に頼ることなく理解することを目指す取り組みだ。

ただし、研究チームは「まだ多くの課題が残されている」と慎重な見方を示す。当面は、これら複数の方法を組み合わせながら、段階的に改善を進めていく必要があるという。企業がAIを活用する際も、単一の監視手法に依存するのではなく、複数の確認プロセスを組み合わせるなど、慎重なアプローチが求められる。

文:細谷元(Livit