INDEX
推論モデルが示すAIの可能性
言語モデルは、GPT-3.5やGPT-4などの単一モデルから、複数の単一モデルを組み合わせるエージェントシステム、そして推論能力を強化したモデルシステムへと短期間で目覚ましい進化を遂げている。
現時点における推論モデルの代表格となるのは、OpenAIの「o3」やDeepSeekの「R1」だろう。また直近では、イーロン・マスク氏率いるxAIの「Grok 3 beta (Think)」も強力な推論モデルとして注目を集める存在だ。
どれほど強力なのか、各ベンチマークスコアがそのインパクトを物語っている。たとえば、o3の小型版として開発されたo3-miniは、米国数学オリンピック予選を兼ねる「AIME 2024」試験で87.3%という高い正答率を記録し、非推論モデルであるGPT-4oの9.3%を大きく超えた。また、新しいバージョンとなる「AIME 2025」では、Grok 3 beta (Think)が93.3%と、o3-mini (high)の86.5%を上回る結果を記録した。
大学院レベルの知識・推論能力を測るGPQAというテストからも、推論モデルの可能性を垣間見ることができる。GPQAは、かつてGPT-4でもそのスコアが35%にとどまるほどAIモデルにとって難しい問題だったが、推論モデルの登場によりスコアは飛躍的に伸びている。たとえば、Grok 3 beta (Think)は84.6%、o3-mini (high)は79.7%などと80%前後が推論モデルの標準になりつつある状況だ。
このようなAIモデルの進化は、それらをベースに開発されるAIアプリケーションの発展も大きく飛躍させる要因となる。特に注目される領域の1つは、これまでのAIモデルでは困難だったパーソナルアシスタントAIの開発だ。ベースモデルの進化に加え、AIアシスタント向けに設計された独自のアーキテクチャにより、複雑なタスクをこなすAIアシスタントがいくつか登場している。以下では、パーソナルアシスタント分野の最新動向をお伝えしたい。
19歳が描くAIアシスタントの未来、カスタムメモリで差別化を図るMartin AI
直近で注目されるのは、イェール大学とバークレー校をそれぞれ中退した19歳のドーソン・チェン氏とイーサン・ホウ氏が率いるMartin AIだ。同社は2025年1月、Y Combinatorの支援を受け、200万ドルのシード資金調達を完了。ドアダッシュの共同創業者アンディ・ファン氏をはじめとする著名な投資家からの出資を取り付けることに成功した。
Martin AIのAIアシスタントの最大の特徴は、「カスタムメモリアーキテクチャ」と呼ばれる独自技術である。これにより、時間の経過とともにユーザーの好みやコンテキストをより深く理解できるという。従来の音声コマンドに依存するAIアシスタントとは一線を画す、より直感的でパーソナライズされた体験の実現を目指している。
具体的な機能面では、電話、テキストメッセージ、メール、Slackなど複数のチャネルを利用できるインターフェースを実装。カレンダー管理やメール対応、ToDoリストの管理に加え、ユーザーに代わって通話やテキストメッセージの送信も行える。昨年夏のローンチ以降、ウェブダッシュボードやモバイルインターフェースを新たに導入するなど、迅速な製品開発を進めている。

https://www.trymartin.com/blog/introducing-the-martin-dashboard
チェン氏は、個人向けAIアシスタントの発展には3つのフェーズがあると指摘する。第1フェーズは直接的な指示に従うこと、第2フェーズは時間の経過とともに継続的な指示に対応すること、そして第3フェーズは指示を先回りして推測することだという。同社は、5年後には誰もが5〜10個のAIエージェントを活用する時代が来ると予測しており、その中でも最も消費者に近い存在になることを目指すとのことだ。
すでに1万人以上の早期ユーザーを獲得し、一部は有料サービスへの登録も完了したとのこと。新規ユーザー向けには7日間の無料トライアルを提供中だ。OpenAIのOperatorやグーグルのJarvisなど大手も参入を予定しているが、チェン氏は「大手企業はリソースは豊富だが、慎重すぎて意思決定が遅い。我々は迅速な製品開発とユーザー体験重視のアプローチで差別化を図る」と自信を見せる。
感情知性を備えたAIエージェント、元グーグル幹部が率いるPalona AI
AIアシスタントをめぐる競争は、個人向けのみならず、企業向け市場でも激化の様相を呈している。その中で異彩を放つのが、元グーグルのエンジニアリング部門VP、マリア・チャン氏らが立ち上げたPalona AIだ。同社のAIエージェントは、企業のブランドパーソナリティや価値提案を反映した独自の個性を持つ。
特に注目されるのは、感情知性(EQ:Emotional Intelligence/Emotional Quotient)に重点を置いた開発アプローチだ。同社のティム・ハウズCTOによると、心理学の文献を調査し、感情知性の8次元の定義を特定。その基準に基づいてAIを訓練することで、高いEQを実現したという。これにより、ユーモアや絵文字、そして適切な配慮を含んだ返答が可能になった。
技術面では、3つの異なるモデルを組み合わせた独自のアプローチを採用。まず、各企業向けにカスタマイズされた大規模言語モデル(LLM)を基盤とし、その上で幻覚(ハルシネーション)を検出・除去する監督モデルを配置。さらに、リアルタイムのメモリ追跡を行う小規模言語モデル(SLM)を組み込むことで、過去のやり取りに基づいた深い顧客プロファイルの構築を実現した。
すでにスマートホームカメラ企業のWyzeやピザチェーンのPizza My Heartなどが導入を開始。Pizza My Heartでは「ジミー・ザ・サーファー」というAIエージェントが、音声やテキストを通じてピザの注文を受け付けている。音声対応は特に重要で、米中西部では約50%、東西海岸でも約20%の顧客が電話注文を利用しており、この状況に対応しているという。音声版のAIエージェントは、テキストチャットボットとは異なる対話スタイルを採用し、効率性を重視した設計だ。
販売とコンバージョンの最適化に注力した点も見逃せない。最初にこの2つの課題に取り組んだことで、カスタマーサポートやロイヤルティプログラムなど他の領域への展開が容易になったという。これにより、顧客との関係性を犠牲にすることなく、パーソナライゼーションを強化し、コンバージョンを促進する仕組みが生まれた。
上記でも触れたが、パーソナルアシスタントは、OpenAIやグーグルなどの大手も注目する分野。MartinやPalonaのようなスタートアップが、大手とどのように渡り合っていくのか、今後の動向が注目される。
文:細谷元(Livit)