正確な診断の精度は約90％　医師の片腕となり得る、病理学に特化した新しいLLM「PathChat」

2024.8.17

クローディアー真理

今、世界の病理学医から注目を集めているのが、病理医の診断支援ツール「PathChat」だ。PathChatは、腫瘍やその他の重篤疾患の同定、評価、診断において、病理医をサポートし、より正確な診断や治療判定、予後を予測するのに役立つ。

特筆すべき点は、従来の主要なAIモデルと比較して、診断に関する多肢選択問題や臨床的に関連のある質問に対する回答において非常に精度が高いことだ。情報が画像のみの場合で78%、臨床コンテキストを含む場合で89.5%という正確さを誇る。

病理医や研究者と共に、診断、治療を含む臨床方針決定を行うAIコパイロットが、PathChatによって一歩前進すると期待されている。

病理医がPathChatとチームを組めば、より適切な治療が提供可能に

特定のタスクを行う予測モデルやタスクに依存せず、自己監督学習を行う視覚エンコーダの開発において、計算病理学は目覚ましい進歩を遂げてきた。

それと同時に現在、生成AIの爆発的な成長ぶりは目を見張るものがある。AIアシスタントは画像、ビデオ、音声に基づいて、把握・理解し、論理的に考え、判断するという機能を備え、ますますマルチモーダルになってきている。その一方で、病理診療を念頭に置いた、汎用性を備えたマルチモーダルAIアシスタントの開発は非常に限られている。病理画像を正確に認識する能力が十分ではないのだ。

そこに誕生したのが、PathChatだ。開発した、ハーバード大学医学部及びブリガム・アンド・ウィメンズ病院の病理学助教授、ファイサル・マハムード氏が率いるマハムード研究室は、「AI for Pathology（病理学にAIを）」という標語を掲げる。同研究室は、機械学習、データフュージョン、医用画像解析を活用して、がん診断、予後予測、バイオマーカー探索のための合理的なワークフローを開発することを目標としている。

マハムード氏は2019年、米国の首都ワシントンで開催された、GPUテクノロジー・カンファレンスで、PathChatの研究について講演した。病理医の診断にばらつきがあること、つまり不確定なままで判断を下されるために、より多くの生検や必要のない介入治療が行われることがあり、その結果、患者に悲劇的な結果をもたらす可能性がある、と同氏は警告している。

それに対し、ディープラーニングは主観的なバイアスを減らし、診断と治療反応予測を助ける可能性を秘めていると同氏は話す。マハムード氏は、病理医がPathChatとチームを組み、治療や診断にあたることで、より適切な治療を患者に提供できるようになると考えている。

コンサルタントとしてのPathChatとチャットして病状を診断

PathChatは、人間の病理学に特化した視覚言語ジェネラリストAIアシスタントだ。人間の病理医が、腫瘍などの深刻な病状を特定・評価・診断する際に、コンサルタントと似た役割を果たすことができる。

端的にいえば、ユーザーは画像をアップロードし、関連する臨床的コンテキスト（例えば、臨床歴、画像の生検部位など）を提供。ChatGPTのような生成AIを搭載した、お馴染みの製品と同じように、チャットすることができる。

PathChatは、ビジョンエンコーダー、マルチモーダルプロジェクターモジュール、大規模言語モデルという3つの主要コンポーネントで構成されている。

データキュレーションにあたっては、病理学特有のクエリに応答するためのトレーニングとして、合計999,202回の質問と回答を含む456,916の指示のデータセットをキュレートした。指示は、おおまかに「会話」「説明」「複数選択」「自由回答」「テキストのみ」「ガードレール」に分類される。

全データは、PathChatが多様な指示を一般化できるよう、データには複数の異なる指示形式が含まれている。自由形式の「マルチターンダイアログ」「詳細な画像の説明」「短い回答の質問」「複数の選択肢の質問」「テキストのみの質問」などがそれだ。

指示データセットを生成するために、画像キャプション、PubMedオープンアクセスの教育記事、病理学の症例報告、スライドガラス標本全体（WSI）から抽出された関心領域など、複数の機関から多様なデータソースが使用されている。

一部の非構造化データ形式については、オープンソースの汎用大規模言語モデル（LLM）を使用して、元のソーステキストを自動的に構造化形式になるように指示。その後、複数の病理学者からの継続的な入力により、構造化データから手動で指示が作成された。

テキストのみの大規模言語モデル（LLM）と比較して、マルチモーダル大規模言語モデル（MLLM）は、画像をはじめとする、他のモダリティからの入力が含まれる可能性がある自然言語クエリ形式のユーザー指示を理解して応答するよう、トレーニングされた。高解像度の顕微鏡画像（他の臨床情報と組み合わせて）の視覚情報を検査して解釈することは、病理学分野の基礎であり、現代医学における病気の診断と管理の多くの側面にまで及ぶため、マルチモーダルのサポートは組織病理学の領域にとって不可欠だ。

LLMは、自然言語の指示を入力として受け取り（トークナイザーよってトークン化された後）、埋め込まれたテキストトークンとマルチモーダルプロジェクターからの出力画像トークンを組み合わせ、入力トークンの完全なシーケンスを形成し、自己回帰モデルで次の単語予測によって望ましい応答を予測。生成された応答は、最終的にトークナイザーによって自然言語にデコードされ、エンドユーザーに提示される。

画像と臨床コンテキストが与えられた場合、精度は89.5％

マハムード研究室では、PathChatの能力を評価する実験も行った。

まず、組織学画像に基づいて直接診断を下す能力を試した。質問内容は11の異なる主要な病理学診療所と臓器部位からの54の診断をカバーしている。どの質問にも、2つの評価戦略が組み込まれている。1つは画像と複数選択ができる質問のみを提示。2つ目は、実際の診断ワークフローを厳密に模倣するために、追加で患者の年齢、性別、臨床歴、放射線学的所見などの臨床コンテキストが提示されている。

そして、PathChatをLLavA 1.5とLLaVA-Medと比較してみた。すると、PathChatは画像のみの評価設定の場合、78.1％、追加の臨床コンテキストが与えられた場合は、89.5％の精度を記録。ChatGPT4を動かすGPT4Vと比較しても、前者で32.2％の、後者で21.3％の差をつけて、PathChatの優秀さが証明された。このほか自由形式の病理学関連の質問への回答を生成する能力の評価でも、LLavA 1.5とLLaVA-Medとの差は各々50％近く、また次点となったGPT4Vとも約20％の差をつけて、PathChatの優秀さが目を引いた。

各パフォーマンスが大幅に向上したPathChat 2

PathChatが、病理医の注目を集める一方で、マハムード研究室では、すでにPathChat 2がプレビューの段階だという。同研究室で開発されたPathChat、及びそのほかの基礎モデルの独占ライセンスを持つモデラAI社によれば、病理学者、研修生、研究者による生成AI利用を意識して、PathChat 2は開発されたという。

特定の会話内で、テキストとインターリーブされた、複数の高解像度画像を受け入れることができるため、インタラクティブなスライドビューアーを通じて直接、各相談ケースをより包括的な評価を下すことが可能。PathChatと比較すると、鑑別診断、形態学的説明のパフォーマンスが大幅に向上し、指示に従う能力や自由形式の質問への回答、レポートの要約などのさまざまなタスクを実行する能力が向上しているそうだ。

医療における生成AI導入を先導する

パキスタンを拠点に世界のニュースを網羅するウェブサイト、グローバルビレッジ・スペース（GVS）は、PathChatは病理学分野において画期的な進歩であり、重要と評価すると当時に、病理学以外への応用についても示唆している。常に最新の知識で継続的にモデルを訓練し、デジタルスライドビューアーや電子カルテといったツールと統合すれば、その有用性はさらに高まると推測。加えて、PathChatの機能は、ゲノミクスやプロテオミクスなどにおける医用画像診断やデータモダリティに拡張することも可能だと予測している。

マハムード研究室の研究者たちによる今後の計画は野心的だ。GVSによれば、モデルの動作を人間の意図と一致させ、その応答を改善するために、人間のフィードバックデータを広範囲に収集。加えて、既存の臨床データベースと統合し、関連する患者情報を検索する能力の強化も図るという。PathChatは自然言語と人間との対話を重視し、医療における生成AI導入を先導することになるだろう。

文：クローディアー真理
編集：岡徳之（Livit）