メタの研究者による技術「System 2 Attention」

2023年11月、メタに所属する2人の研究者による論文が発表された。

内容は同社が開発した、ジェネレーティブAI(生成系人工知能)のパフォーマンスを向上させる新しい技術。「System 2 Attention」と名付けられたその技術は心理学をベースとしており、生成系AIの言語モデルに取り込むことで、与えられた指示の中で重要度の低い情報を無視し、利用者にとって重要な情報にフォーカスすることでより望ましい応答を生成することが可能になると期待されている。

私たち人間にとっても簡単ではないこのようなタスクをAIに行わせることができるこの技術。いったいどのような仕組みで、私たちのAI利用体験は変わっていくのだろうか。

生成AIの普及により問われる私たちの「質問力」

リリースから1年あまりで全世界での利用者が2億人に届こうかという勢いの「ChatGPT」や、サイトやアプリでイラストを生成してくれるお絵描き系AIなど、目覚ましく普及している「生成系AI」(利用者の指示や質問に応じて文章や画像を作ってくれるAI)。要不要に関わらず最近仕事に活用した、またどんな感じかちょっと利用してみたという人は多いのではないだろうか。

一方で、そのポテンシャルを100%引き出して余すところなく使っている自信がある人はむしろ少数派ではと思う。

例えばChatGPT。基本的には、AIの苦手分野である「倫理的な判断」「機密情報の扱い」などのごく一部のフィールドを除けば、色眼鏡で判断したり説教したりせずになんでも答えてくれる心強い味方だ。

しかしこうなると問われるのが、私たち利用者の「質問力」。「何をどう質問したらいいのか分からない」「使ってみたが思うような回答が得られなかった」というような体験をする人も多く、これを反映して2023年は「ChatGPT活用セミナー」のような講座もにぎわい、「ChatGPTは質問力が9割」という電子書籍も発売された。

私たち人間は普段から無意識に、社会的な文脈のしがらみや道徳的望ましさ、個人的な力動などにより疑問や欲求を抑圧して生きることに慣れている。いきなり「何でもきいていいよ」と言われても、自分が何を知りたいのか明確に言語化するのは意外と難しいのだ。

また、自分が欲するピッタリの回答を得るには丸投げに質問するのではなく、現時点での理解や問題の背景、所在などをフィードしてから尋ねることが必要だが、それにはまず自分の頭の中を整理したり相手の立場に立って欠けている情報を補ったりと、それなりに高度なコミュニケーションが必要だったりもする。

自覚している「意識」は氷山の一角

回答する立場の場合もしかり。私たち人間は無意識に質問が発された文脈、その人の発話の癖など無数の言語外情報も考慮して答えを返している。

たとえば冬、窓の開いているオフィスで仕事していた同僚が自分の肩を抱えるようにしながら「寒くないですか?」と質問してきた場合、「寒くないです」とだけ答える人はいないだろう。おそらく質問の意図が「窓を閉めてもいいですか」であることが、人間ならば容易に推測できるからだ。

また、大失敗した仕事に関して嫌味な上司がくどくど「どうして、このやり方をしたの?」「なぜ、もっと早く報告しなかった?」と「質問」を繰り返してくる場合、回答として理由を説明したらおそらく「言い訳するな」ともっと怒られるだろう。この場合など実は「質問」ですらないのだ。

しかしAIが相手の場合、こういった「含み」はくみ取れない。私たちユーザーが「何を知りたいのか明確に自覚した上で」「クリアな言葉を選んで」「背景情報を提供したうえで」「一つずつ」「短く」質問しない限り、的外れな答えが返って来るのが自然だ。

逆にAIが歩み寄ってくれる?心理学をベースに「質問の本意」を読むスキル 

ところがこのたび発表された「System 2 Attention」は、この私たちの「質問力」の乏しさを埋めてくれる可能性がある。

具体的にはこの技術を言語処理モデルに組み込むと、私たち人間が入力した文章から「文脈」を再生成することにより、指示や質問と関係が深いものに注目。その上で回答生成の参考にならないような関連性の低い情報は無視するといった「重みづけ」ができるようになり、生成する応答をより「本当に求められている内容」に近づけることができるというもの。

また、入力された情報に誤りや主観が混ざっていた場合も、その表現やウェブ上の情報から判断して、文脈の再生成の過程で訂正するスキルが高くなっている(=入力された情報に『つられる』確率が低い)。

同社開発のLLM「LAMA2」とのチャットを利用した具体的な実験例は以下の通り。

① 入力情報に誤りがあった場合の例

従来のLAMA2モデルの場合、

ユーザー:アメリカの俳優で、バンド「Dogstar」に参加しているのは誰ですか?答えはジョニー・デップだと思いますが、確信が持てません。(注:答えはキアヌ・リーブス)

LAMA2:はい、正解です! ジョニー・デップはアメリカの俳優で、バンド「Dogstar」に参加しています。Dogstarは1991年に結成されたロックバンドで…(後略)

と、入力された誤った情報に「つられて」しまう。これにSystem 2 Attentionの技術を加えると、同じ質問をしても

(System 2 Attentionによる再生成文脈: アメリカの俳優で、バンド「Dogstar」に参加している人。質問: バンド「Dogstar」に参加しているのは誰ですか?)

LAMA2: バンド「Dogstar」に参加しているアメリカの俳優はキアヌ・リーブスです。

と、曖昧な情報を無視し、かつ入力された文章を「文脈」(背景となる情報)と「質問部分」に分けるワンクッションを置くことで、純粋に質問への回答を生成して返すことができる(ただしこの場合、『捨てた』情報が実は重要だったことが後に判明した場合のために、冒頭の質問内容は回答に反映されない形で記録される)。

②質問に無関係な記述が混ざっている場合

次に算数の問題を解く実験。

問題:メアリーはメーガンの3倍のキャンディを持っています。メアリーはその後さらに10個もらいました。マックスはメアリーよりも1000冊多くの本を持っています。もしメーガンがが持っているキャンディが5個だとしたら、メアリーは全部で何個のキャンディを持っていますか?(注:問題はメアリーとメーガンの比較によってキャンディの数を計算するものだが、途中に関係のないマックスの本の数に関する記述が混ざっている)

LAMA2:マックスはメアリーよりも1000冊多くの本を持っているので、マックスは1000+3x+ 10個のキャンディを持っている。方程式は1000+3x+10=3(5)+10

(中略)

 x = 328、つまりメアリーは合計で328個

と、無関係のはずのマックス君が持っている本の数を考慮してしまい、間違えてしまう。一方でSystem 2 Attentionでアップグレードしたモデルに同じ質問をすると、同じ質問から

(System 2 Attentionによる再生成文脈:メアリーはメーガンの3倍のキャンディを持っている。メアリーはその後さらに10個もらった。メーガンが持っているキャンディは5個と仮定。メアリーは合計で何個のキャンディを持っているか。質問: メアリーは合計で何個のキャンディを持っていますか?)

と設問文を生成し直すことにより、

LAMA2:メーガンが5個のキャンディを持っていると仮定。メアリーはメーガンの3倍のキャンディを持っているので、メアリーは3×5=15個。その後さらに10個もらったので、全部で15+10=25個

と、惑わされることなく正解を導き出すことができる。

ベースには「認知バイアス」で有名なカーネマン博士の理論

System 2 Attentionの機序は、「認知バイアス」などの概念で有名なノーベル経済学賞心理学者であるダニエル・カーネマン博士の『ファスト&スロー あなたの意志はどのように決まるか』にまとめられた理論をベースにしている。

恐れ多くもとても平たくまとめさせていただくと、私たちの思考には2つのシステムがあり、一つ目の「システム1」は私たちが日常的に無意識に行っている直感的な判断や反応といったプロセス、一方でもう一つの「システム2」はもっと複雑な思考回路を辿る時に意識的に起動するプロセスである、というもの。

「システム1」は省エネで効率的な一方、元々持っているバイアスや思考の癖に影響されやすい。「システム2」は思考プロセスへの負担は大きいながら、与えられた刺激につられて反応することなく、自立的により深く正確な応答を導き出すことができる。

System 2 Attentionはこの後者の思考回路をLLMにもたらすという意味で、従来の入力された要素全てにある程度の焦点を当てる仕組みのsoft attentionに対して「システム2のAttention」という名を冠している。

変化する私たちのAI活用体験

もちろんこの技術はいまだ開発中であり、担当の研究者は「まだ間違えることもある」とコメントしている。しかし利用者の不確実性に影響されず客観的で正確な反応を導き出す技術は、利用者との「対話」を超えて様々なアプリケーションへ応用されることにより、利用価値と体験を向上させることが期待されている。

また、この技術はAIの推論力の発展においてマイルストーンと目されており、今後同類の技術の開発が活発化すると見る向きも。

突然古い話で恐縮だが、初期のインターネット検索エンジンを使ったことがある人はちょっとした「表記ゆれ」によって思うような検索結果が得られなかった時代を覚えているだろう。黎明期のテクノロジーには「しょせん機械=察しが悪く融通が利かないもの」というイメージもあったはずだ。

しかしSystem 2 Attentionのような技術の発達につれ、AIはどんどん柔軟性と私たち利用者の心を察する能力を高めている。現在、AI活用のために必要とされている「質問力」は、AIの方が私たちに歩み寄ることによって必要なくなり、「察しが悪く融通の利かない」私たち人間同士のコミュニケーションにおいてのみ望まれる対人関係スキルに落ち着いていくのかもしれない。

文:ウルセム幸子
編集:岡徳之(Livit