人工データをめぐる最新動向
大規模言語モデル(LLM)の性能向上において重要となるのが、高品質な訓練データの存在だ。しかし、プライバシー問題やデータ収集コストなど課題も多く、高品質なデータを大量に集めるのは非常に困難であるのが現状となっている。
こうした中、注目を集めているのが「人工データ(Synthetic Data)」だ。
人工データとは、実世界のデータに基づき、アルゴリズムによって人工的に生成されたデータを指す。実際の個人情報や機密情報を含まないため、プライバシー問題に悩まされることなく、AIモデルを訓練することができる。
人工データには主に3つのタイプが存在する。1つ目は「完全人工データ(Fully Synthetic Data)」で、アルゴリズムによって完全に新規生成されたデータを指す。2つ目は「部分人工データ(Partially Synthetic Data)」で、実データの一部を人工的に置き換えたものだ。3つ目は「ハイブリッド人工データ(Hybrid Synthetic Data)」で、実データと人工データを組み合わせたものとなる。
人工データの生成手法も多様化している。ルールベースの生成、統計・機械学習モデルの活用、敵対的生成ネットワーク(GAN)の利用、データ拡張、統計的ノイズの注入、エンティティのクローニングとデータマスキングなど、用途に応じて選択できる手法が増えている。
特に医療分野では、患者のプライバシー保護が厳しく求められる一方で、疾病の進行や治療効果の予測など、大量のデータを必要とする分析ニーズが存在する。人工データは、プライバシーを確保しながら、希少な疾患データを含む多様なデータセットの生成を可能にする。
自動運転車の開発分野でも人工データの活用が進む。実際の道路での走行テストには時間とコストがかかり、また危険な状況での検証は困難だ。人工データを活用することで、さまざまな運転シナリオを安全にシミュレーションできる。
金融分野では、リスク評価や不正検知のためのアルゴリズム開発に人工データが活用されている。顧客の金融取引データは機密性が高く、実データの利用には制約が多いが、人工データならば規制要件を満たしながら、多様なシナリオでのテストが可能となる。
AIエージェントを活用した人工データ生成の潮流
人工データ分野の最新動向として注目を集めているのが、AIエージェントを活用するアプローチだ。背景には、AIモデルのさらなる向上を実現する高品質データ需要の高まりがある。
この分野で特に関心を集めているのが、マイクロソフトリサーチが開発した「AgentInstruct」と「Arena Learning」と呼ばれる2つの新しいアプローチ。複数のLLMを活用して高品質な指示データを生成・改良するエージェントベースの手法となる。
AgentInstructは生のテキストから新しい指示を生成する多段階のパイプラインを採用。具体的には、教科書や記事、コードスニペットなどからシード(種)を収集し、専門のエージェントがそれを会話や議論、詩などの形式に変換する。その後、複数のエージェントが事前に定義された分類に基づいて多様な指示を生成し、最後に提案者と編集者の役割を持つエージェントペアが指示の複雑さと品質を段階的に向上させる。
この手法により、読解力、質問応答、コーディング、創造的な文章作成など17の異なるスキルに対応するフローを実装し、約2,200万の指示を生成することに成功。他のソースから380万の指示を加えた計2580万のデータセットを用いて、Mistral-7bモデルをファインチューニングし、「Orca-3」モデルを生み出した。
一方Arena Learningは、既存の指示データセットの改良に焦点を当てつつ、複数のLLMが競争する模擬環境を通じてデータを洗練させる手法だ。評価用のLLM(meta-llama/Meta-Llama-3-70B-Instruct)が各モデルの応答をランク付けし、スコアと説明を提供する。これにより、人間による評価をシミュレートしつつ、より大規模かつ低コストでデータセットを改善できるとされる。
Arena Learningの特徴は、モデルの進化を促す反復的な「バトル」と学習プロセスにある。初期モデル(WizardLM-β-SFT-I0)をデータの一部で訓練し、他の最先端LLMと競争させる。WizardLM-βが負けたケースを収集し、勝者の応答を参考にファインチューニングを行う。このプロセスを複数回繰り返すことで、AIモデルの能力を段階的に強化できるという。
これら2つのアプローチを組み合わせた「ArenaInstruct」という新しいフレームワークの可能性も検討されている。AgentInstructの構造化された多様性とArena Learningの競争的な品質管理を融合させることで、より堅牢で効果的な訓練データセットを生み出すことが可能になると期待されている。
誰もがアクセスできる高品質人工データツール
人工データ需要の高まりに伴い、専門企業が提供する使いやすい人工データ生成ツールも増えている。HuggingFaceのウェブインターフェース上でも利用できる、Gretelの人工データAIシステム「Navigator」はその1つ。特別な環境構築は不要で、誰もが簡単にアクセスできる。
Navigatorは、人工データ生成の精度においてOpenAIのGPT-4を25.6%、Llama3-70bを48.1%上回り、さらには人間の専門家が作成したデータをも73.6%上回る。複数の専門AIモデルを組み合わせた複合AIシステムを採用し、1回の生成につき20〜30回のLLM呼び出しを行うことで、高い出力品質を実現している。
使い方は極めてシンプル。GretelのAPIキー取得後、HuggingFaceの専用スペースにアクセスし、CSVやJSONフォーマットの元データをアップロードするか、HuggingFaceのデータセットへのリンクを指定するだけで利用を開始できる。その後は、プロンプトや設定を調整しながら、生成結果の品質を確認。満足のいく結果が得られた段階で、SDKコードをエクスポートし、より大規模なデータ生成に移行することも可能だ。
プロンプトの設定には3つの重要な要素がある。1つ目は、テキスト生成の方向性を示すフォーマットプロンプト。2つ目は、テキストの改善方法を指示する変異プロンプト。3つ目は、出力の質を定義する品質プロンプトだ。これらを段階的に調整することで、目的に応じた質の高いデータセットを生成できる。
Navigatorの活用範囲は幅広い。指示ファインチューニング、RLHF/RLAIFデータセットの作成、検索拡張生成(RAG)、自然言語からSQLへの変換、コード生成など、さまざまなタスクに対応可能だ。100億以下のパラメータを持つ複数の専門化されたLLMを組み合わせることで、より大規模な単一モデルを上回る性能を実現している点も特筆に値する。これは大規模な単一モデルよりも、小規模な専門モデルのスマートな連携が効果的であることを示唆するもの。人工データ生成分野においては、モデルサイズよりも、知的なエージェントの協調が重要な役割を果たすことが明らかになりつつある。
現在、AIモデルの精度改善に限界が見え始めているとも言われているが、高品質な人工データへのアクセスが容易になることで、この状況は大きく変わる可能性がある。
文:細谷元(Livit)