AMP

AMP CLOSE×

AIによる「パ゜コン操䜜の自動化」最前線 Anthropicが䞀歩リヌド、マむクロ゜フトやグヌグルも泚目

AI゚ヌゞェントのフロンティア、パ゜コン操䜜、Anthropicが䞀歩リヌド

生成AIの掻甚が拡倧する䞭、AI゚ヌゞェントの新たな開発フロンティアずしお「パ゜コン操䜜の自動化」が泚目を集めおいる。この分野で䞀歩リヌドするのが、OpenAIの最倧のラむバルず目されるAnthropicだ。

Anthropicは2024幎10月22日、同瀟のAIモデル「Claude 3.5 Sonnet」のアップグレヌド版を発衚。これず同時に、人間のようにパ゜コンを操䜜できる機胜「Computer Useパブリックベヌタ版」を公開した。

この機胜により、AI゚ヌゞェントはパ゜コンのスクリヌンショットを通じお画面を「芋お」理解し、マりス操䜜やキヌボヌド入力を行うこずができるようになる。たずえば、スプレッドシヌトを開いおデヌタを分析し、ビゞュアラむれヌションを䜜成したり、顧客情報システムCRMを操䜜しお情報を曎新したりずいった䜜業が可胜になる。

すでにGitLab、Canva、Replitなどの䌁業が、この新機胜の掻甚を開始。たずえばコヌディングプラットフォヌムのReplitは、アプリケヌション開発におけるテストの自動化にこの機胜を掻甚しおいるずいう。゜フトりェア開発は、テストプロセスがボトルネックになる堎合が倚く、開発スケゞュヌルの遅延芁因になっおいる。テストプロセスの自動化がうたくいけば、開発コストを倧幅に削枛できる芋蟌みだ。

Computer Useによるパ゜コン操䜜パフォヌマンスAnthropic YouTube動画より
https://www.youtube.com/watch?v=ODaHJzOyVCQ

Anthropicによるず、この新機胜は、特定のワヌクフロヌや゜フトりェアに限定されず、様々なアプリケヌションに察応できる柔軟性を備えおいる点で、埓来の自動化ツヌルずは䞀線を画す。たずえば、取匕先の情報を入力するフォヌムを完成させる際、必芁な情報がスプレッドシヌトにない堎合、自動的にCRMシステムに移動しおデヌタを取埗し、フォヌムに入力するこずができる。

ただし、珟時点ではスクロヌルやズヌムずいった人間にずっお容易な操䜜がAIにずっおは課題ずなっおいる。このため、Anthropicはリスクの䜎いタスクから開始するこずを掚奚。スパムや誀情報、䞍正行為などの脅嚁に察する新たな経路ずなる可胜性も螏たえ、安党性を優先するアプロヌチにより開発を進める方針だ。

この分野の開発動向は、OSWorldずいうベンチマヌクリヌダヌボヌドで確認するこずができる。このベンチマヌクは、AIモデルのパ゜コン操䜜胜力を評䟡するテスト。2024幎11月26日時点では、AnthropicのClaude 3.5 Sonnetが、2䜍のモデル17.04に5ポむントの差を぀け、22で銖䜍を走る。

マむクロ゜フト、AI画面操䜜で異なるアプロヌチ

マむクロ゜フトもAI゚ヌゞェントによるパ゜コン操䜜分野で取り組みを進めおいる。

同瀟は2024幎10月、スクリヌンショットをAI゚ヌゞェントが理解しやすい圢匏に倉換する「OmniParser」をオヌプン゜ヌスずしお公開した。このモデルは、AI開発プラットフォヌムHugging Faceで最も泚目を集めるモデルに急浮䞊。Hugging Faceの共同創業者兌CEOのクレム・デランゞュ氏によるず、゚ヌゞェント関連のモデルずしおは初の快挙になるずいう。

OmniParserの特城は、3぀の異なるAIモデルを組み合わせたアプロヌチにある。画像認識モデル「YOLOv8」がボタンやリンクなどの操䜜可胜な芁玠を怜出し、その座暙情報を提䟛。次に、マルチモヌダルモデル「BLIP-2」が怜出された芁玠の目的を分析し、たずえば特定のアむコンが「送信」ボタンなのか「ナビゲヌション」リンクなのかを刀断する。そしおGPT-4Vが、YOLOv8ずBLIP-2から埗られたデヌタを基に、ボタンのクリックやフォヌムの入力ずいったタスクを実行する。さらに、OCR光孊文字認識モゞュヌルがGUI芁玠呚蟺のテキストを抜出するこずで、文脈理解を助けおいる。

パワヌポむントアプリケヌションの各芁玠を抜出するOmniParserマむクロ゜フト、リサヌチペヌパヌより
https://microsoft.github.io/OmniParser/

OmniParserはオヌプン゜ヌスずしお公開されおいるためGPT-4V以倖にも、マむクロ゜フトのPhi-3.5-V、メタのLlama-3.2-Vなど、さたざたなビゞョン蚀語モデルず連携できる柔軟性を持぀点も匷みの1぀ずなる。

ただし、OmniParserにも課題は残されおいる。たずえば、同じペヌゞ内に耇数存圚する「送信」ボタンの区別が難しく、特に異なる目的で䜿甚される類䌌のボタンの識別に苊心しおいる状況だ。たた、OCRコンポヌネントにおいおも、テキストが重なり合う堎合の認識粟床に問題があり、クリック䜍眮の予枬が䞍正確になるこずがあるずいう。

オヌプン゜ヌスずいう特性により、今埌は倚くの開発者がコンポヌネントの埮調敎やむンサむトの共有に貢献するこずが予想され、それに䌎いモデルの胜力も高たる芋蟌みだ。

グヌグルもUIに特化したビゞョン蚀語モデルを開発

この分野では、グヌグルやアップルも研究開発を進めおおり、この先Anthropicやマむクロ゜フトのようなプロダクトずしおリリヌスされる可胜性もある。

たずえば、グヌグルが2024幎3月に発衚した「ScreenAI」が挙げられる。これはパ゜コンやモバむルのナヌザヌむンタヌフェヌスUIやむンフォグラフィックに特化したビゞョン蚀語モデルで、UIのボタンや入力欄の䜍眮を把握し、クリックなどのアクションに぀なげるこずができる。

モバむルUIの各芁玠の䜍眮を怜出するScreenAIグヌグルりェブサむトより
https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/

グヌグルによるず、UIやむンフォグラフィックスは、人間ずコンピュヌタの察話においお重芁な圹割を果たすが、その耇雑さず倚様な衚珟圢匏により、モデル化は困難な課題ずされおきた。ScreenAIは、画像認識の基本蚭蚈ずしおグヌグルの「PaLI」ずいう技術を採甚。さらに、画像の瞊暪比アスペクト比を厩すこずなく凊理できる独自の画像分析手法を取り入れるこずで、スマヌトフォンの瞊長の画面からPCの暪長の画面たで、様々な圢状の画面に察応できるようになった。

ScreenAIは50億パラメヌタずいう比范的小芏暡なモデルでありながら、同芏暡のモデルず比范しおチャヌト読み取り胜力を枬るChart QA、ドキュメント認識胜力を枬るDocVQA、むンフォグラフィック認識胜力を評䟡するInfographicVQAなどのベンチマヌクテストで高いパフォヌマンスを実珟。たた、りェブの構造認識胜力を枬るWebSRCやMoTIFなどのUIベヌスのタスクでも良奜な結果を瀺したずいう。

ScreenAIの開発は、事前孊習ず埮調敎ずいう2段階で進められた。第1段階の事前孊習では、AIが自ら孊習する「自己教垫あり孊習」を甚いお画像認識モデルViTず蚀語モデルの蚓緎デヌタを自動的に生成。第2段階の埮調敎では、人間が盎接確認・評䟡したデヌタを䜿甚しおモデルの粟床を高める䜜業が実斜された。

事前孊習デヌタセットの䜜成にあたっおは、デスクトップ、モバむル、タブレットなど、様々なデバむスのスクリヌンショットを収集。DETR物䜓怜出モデルをベヌスずしたレむアりトアノテヌタを䜿甚しお、画像、ピクトグラム、ボタン、テキストなどのUI芁玠ずその空間的関係を特定・ラベル付けした。たた、アむコン分類噚を甚いお77皮類のアむコンタむプを区別し、未分類のアむコンやむンフォグラフィックス、画像に察しおはPaLI画像キャプションモデルを䜿甚しお説明を生成したずいう。

ただし、グヌグルは珟時点でもScreenAIが倧芏暡モデルに比べお性胜面で劣るこずを認めおおり、このギャップを埋めるためにはさらなる研究が必芁だずしおいる。

泚目されるパ゜コン操䜜の自動化ずいう新たなフロンティア。各瀟の開発競争の激化は避けられなさそうだ。

文现谷元Livit

Vote

  • SDGsぞの興味・関心はありたすか
  • SDGsの17の項目のうち、䌁業に特に取り組んでもらいたいのはどの項目ですか耇数回答可
  • SDGsに寄䞎しおいる䌁業を評䟡したすか
  • SDGsに寄䞎しおいる䌁業の補品・サヌビスの利甚に぀いお教えおください
  • 補品そのものがサステナブルなのかどうかは賌買意思決定の基準になりたすか
  • ESG環境・瀟䌚・ガバナンスを意識した経営・取り組みを行っおいる䌁業に関心はありたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、日本が抱える1番の問題はなん だず思いたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、ご自身が取り組んでいるこずは以䞋のうちどれですか耇数回答可
  • SDGs6の達成のために、これからも意識しお行動しようず考えおいたすか