コード生成AIは1兆5,000億ドルの経済価値に、メタは最新のコード生成AI「Code Llama」をリリース、その実力は

コード生成AIがもたらす経済効果

ジェネレーティブAIツール活用による生産性改善が期待されている。マッキンゼーの推計によると、ジェネーティブAIによる自動化が進むと、生産性向上により2045年頃には、最大で4兆4,000億ドルもの経済価値が創出される可能性がある。

業務別で見た場合、ジェネレーティブAIの付加価値が最大となるのは、マーケティング/営業で、7,600億〜1兆2,000億ドルの価値創出につながるとされる。この分野では、パーソナライズされたコンテンツ生成などにより、マーケティングの生産性は5〜15%増加、また営業の生産性も3〜5%向上すると推計されている。

マーケティング/営業に次いで、ジェネーティブAIの恩恵を受けるとみられているのが、ソフトウェア開発だ。自動化によってもたらされる価値は、5,800億〜1兆2,000億ドルに達すると予想されている。コード作成、修正と再構築、原因究明、新しいシステム設計の高速化などに活用され、ソフトウェア開発の生産性は20〜45%向上する見込みだ。

このソフトウェア開発領域におけるジェネーティブAIツールの影響に関しては、他にもいくつか調査が実施されており、一部ではマッキンゼーの予測を上回る価値創出が起こると予想する調査結果が報告されている。

たとえば、マイクロソフト傘下のGitHubの調査では、ジェネーティブAIを活用したコード生成機能の普及が進んおり、このペースで普及が進み、生産性が向上すると、2030年には世界経済に1兆5,000億ドルもの価値がもたらされるとの予想が展開されている。

この調査は、GitHubが同プラットフォームのユーザー93万4,533人を対象に実施したもので、OpenAIの技術を活用したコード生成機能「GitHub Copilot」の利用状況を分析している。

GitHub Copilotは、ChatGPTがテキスト予想を行うように、タイプすると、コードの1行、またはブロック全体を提案・生成するジェネレーティブAI機能。GitHub上の公開リポジトリのデータでトレーニングされており、多数のプログラミング言語/スタイルに対応している。GitHubによると、これまでにGitHub Copilotをアクティベートした開発者の数は100万人を超え、2万以上の組織で採用されているという。同機能が生成したコード行のうち、開発者が受け入れた数は、30億行に上る。

GitHubは、開発者の多くがGitHub Copilotによって生成されたコードを利用しており生産性が改善したと報告。2030年には、世界のプロ開発者数は4500万人に達すると予想されており、もし30%の生産性向上が見込める場合、その経済価値は1兆5,000億ドル以上になるだろうと推計しているのだ。

メタが強力なコード生成AIをリリース

マッキンゼーやGitHubの調査が示すように、ジェネレーティブAIの中でもコード生成分野が世界経済にもたらす影響は多大なもの。マイクロソフトやOpenAI、GitHub以外にも、この領域で存在感を高めようとするプレーヤーは少なくない。

ジェネレーティブAIの取り組みで、マイクロソフトやグーグル、アマゾンなどに遅れをとっているといわれるメタだが、このところ先行組にキャッチアップする取り組みを急ピッチで進めており、AI開発コミュニティでは注目度が高まっている。

そのメタは8月24日、コード生成に特化したオープンソースの大規模言語モデル「Code Llama」をリリースした。これは先にリリースされた一般用途向けの大規模言語モデル「LLaMA2」をベースとするコード生成AIで、OpenAIのCodex、GithubのGithub Copilot(Codexベース)、Stack OverflowのOverflowAIなどと競合するモデルになるという。

Code Llamaは、コード生成に加え、コードの完成、ノート/ドキュメンテーションの作成、デバッグなどが可能で、対応言語はPython、C++、Java、PHP、Typescript(Javascript)、C#、およびBashが含まれる。

Code LlamaのベースはLLaMA2となるが、これにまず5000億トークンのコードおよびコード関連データでトレーニングを行い、コード分野に特化させ、さらに200億トークンの長文コンテクストデータによる微調整が行われている。

トークンとは、大規模言語モデルが処理するデータの単位。たとえば「this is a pen」という文章の場合、「this 」「is」「a」「pen」と4つのトークンに分割され、大規模言語モデルに入力されることになる。英語の1ワードが1トークンになるケースが多いが、1ワードが複数に分割される場合もある。一般的に10万トークンは、英語の7万5,000ワードほどに相当するといわれている。

Code Llamaを実際に利用する場合、70億、130億、340億とパラメータが異なるモデルを選択することが可能で、用途によって使い分けが可能だ。たとえば、70億パラメータのCode Llamaは340億モデルに比べ精度は落ちるものの、高速処理が可能で、時間を優先する場合は、70億パラメータのモデルが推奨される。また、70億パラメータモデルは、単一のGPUシステムで動かすことが可能で、GPU不足状況に対応したものとなっている。

Code Llamaの実力

Code Llamaには、このベースモデルに加え、Pythonに特化した「Code Llama Python」と自然言語の指示に特化した「Code Llama Instruct」の2つの異なるバリエーションが付随する。いずれも、プロンプトに10万トークンを入力することが可能だ。

メタは、Code Llamaのリリースにあたり、他の大規模言語モデルやコード生成AIとのベンチマーク比較も行っている。ベンチマーク比較では、HumanEvalとMostly Basic Python Programming(MBPP)を使用。HumanEvalでは、ドックストリングに基づいてコードを完成させるモデルの能力が評価され、MBPPでは説明に基づいてコードを書くモデルの能力が評価された。

まず、Code Llamaのベースモデル(340億パラメータ)は、HumanEvalで48.8%、MBPPで55%を取得、他のモデルのスコアを凌駕する結果を示した。HumanEvalに関して、OpenAIのCodexのスコアは33.5%、またGPT3.5は48.1%だった。唯一、GPT4が67%と飛び抜けたスコアを獲得している。

このベンチマークでは、Code Llamaのベースモデル、Python特化モデル、指示特化モデル、それぞれに異なる強みがあることも判明している。

Python特化モデル(340億パラメータ)は、HumanEvalで53.7%を獲得、Code Llamaの3つのバリエーションの中で最大のスコアとなった。一方、指示特化モデルは、MBPPで57%を獲得しており、自然言語での説明に強いことを証明した格好となる。

コード生成分野では、テック大手のほか、Replit、TabNineなどのスタートアッププレイヤーも多数おり、今後さらに競争が激しくなる見込みだ。

文:細谷元(Livit

モバイルバージョンを終了