1日25億件の質問が生む、想像を超える環境負荷

日本でも30%近くの人々が利用するようになったChatGPT。全世界における利用も急速な伸びを見せている。2025年7月時点で、ChatGPTに送信される指示文(プロンプト)数は、1日あたり25億件に達した。2024年12月の10億件から8カ月で2倍以上増加した格好となる。ChatGPTの開発企業であるOpenAIのサム・アルトマンCEOによると、すでに数億人が日常的に重要なタスクで利用しているという。

この急速な普及の裏側で強まっているのが、環境負荷に対する懸念だ。

アルトマンCEOによると、ChatGPTの1回のクエリは平均0.34ワット時の電力を消費する。これはオーブンなら1秒強、高効率の電球なら数分間の使用に相当する電力量となる。また、水の消費量も無視できない。1回のクエリで約0.000085ガロン、ティースプーン15分の1程度の水が使用されている状況だ。

ロードアイランド大学の研究者チームは、さらに詳細な分析を展開している。ChatGPTで以前デフォルトモデルとして使われていたGPT-4oの場合、短いプロンプトで0.42ワット時、中程度の長さのプロンプトで9.71ワット時を消費する可能性が判明。これを年間7,720億件のクエリに換算すると、39万1,509~46万3,269メガワット時の電力が必要となる。これは米国の3万5,000世帯、50の病院、325の大学の年間消費電力に匹敵する量だ。

水資源への影響も甚大であることが明らかになりっている。同研究者チームの推計によると、GPT-4oの年間水消費量は、133万4,991~157万9,680キロリットルに上る。これは、オリンピックサイズのプール500個分以上に相当する量だ。また、約120万人の年間飲料水需要に匹敵する量でもある。

二酸化炭素排出量も看過できない。GPT-4oだけでも年間CO2排出量は、13万8,125~16万3,441トンに上ると推定されている。これはガソリン車3万台分の年間排出量、またはボストン・ロンドン間の大西洋横断フライト2,300回分に相当する。この排出量を相殺するには、シカゴ市と同じ面積の森林が必要になると、同研究チームは指摘している。

最新モデルほど環境負荷が増大する傾向も明らかになった。o3やDeepSeek-R1といった推論特化型モデルは、長いプロンプトで33ワット時以上(GPT-4.1 nanoの70倍以上)を消費する。性能向上と引き換えに、環境コストが指数関数的に増大している実態が浮き彫りとなっているのだ。

UCLが実証、AI電力消費を90%削減する3つの革新技術

環境負荷の増大を受けて、UCLの研究チームが画期的な省エネ技術を実証した。メタのLLaMA 3.1 8Bモデルを使った実験で、3つの最適化手法を組み合わせることで、エネルギー消費を最大90%削減できることが判明したのだ。

その中で最も注目すべき技術が「量子化」だ。AIモデルが内部計算で使う数値の小数点以下の桁数を減らすことで、精度を97%以上維持しながらエネルギー消費を最大44%削減できることが分かった。これは人間が「2.34+2.17」よりも「2+2」を素早く計算できるのと同じ原理だという。研究チームが3つの量子化手法をテストした結果、BNBQ方式で22%、GPTQ方式で35%、AWQ方式で44%の省エネを実現した。

タスク特化型の小型モデルの活用も大きな成果を挙げた。文章要約では15倍、翻訳では35倍、質問応答では50倍もエネルギー効率が向上したという。特筆すべきは、小型特化モデルが汎用モデルと同等、またはそれ以上の精度を実現した点だ。たとえば、要約で4%、翻訳で2%、質問応答で3%の精度向上を記録。UCLのフリスティヤン・ボシルコフスキ氏は「特定タスクに小型の専門モデルを使うのは、釘を打つのに大槌ではなくハンマーを使うようなものだ」と説明している。

プロンプトと回答の長さを調整する手法も効果的であることが明らかになった。たとえば、400ワード(英語)のプロンプトと400ワードの回答の組み合わせは、1.03キロワット時を消費するが、入力プロンプトを半分の200語にすると5%、回答を200語にすると54%の省エネを達成できたという。

また、インド工科大学の研究では、「簡潔に答えて」という指示や、最小限の回答のみを求める指示により、長文の回答とエネルギー消費を削減しつつ、回答品質を向上させた事例が報告された。

これらの技術を実世界に適用した場合の効果も試算された。量子化とプロンプト・回答の短縮(300語から150語へ)を組み合わせた場合、節約できる電力量は、英国3万世帯の1日分に上る。また、翻訳や要約などの反復的タスクに小型モデルと短縮技術を適用すれば、90%以上の省エネとなり、3万4,000世帯分の電力削減が可能になることが明らかになった。

今日からできるエコなAI利用法、APIコストを激減させる方法

省エネ技術の進展を踏まえ、企業や個人が実践できる具体的な方法を見ていこう。

AIの環境負荷を下げることは、特にAPI利用により、従量課金制でAI料金を支払っている企業や個人にとって、日々のコストを下げることにもつながるため、有益かつ実利的な情報になるはずだ。

最も簡単で効果的なのは、プロンプトの最適化だ。質問を簡潔にまとめ、不要な前置きや装飾的な表現を削ることで、処理に必要なトークン数を大幅に削減できる。

回答の長さを制御する手法も有効だ。前述したように、「最小限の回答のみ」を求める指示では、回答の長さを88%削減し、エネルギー消費を58%カットしながら、むしろ回答品質が向上したケースも報告されている。

企業がコスト削減を実現した事例も参考になるだろう。ある銀行のケースでは、顧客からチャットボットに送信される質問の約30%が100種類に分類できることが判明。これに対し、セマンティックキャッシュと呼ばれる手法を導入し、類似の質問に対して保存済みの回答を返すようにしたところ、トークン生成を25%削減、月額数万ドルのAPI費用削減に成功した。

タスクに応じたモデル選択も重要だ。翻訳や要約などの特定用途では、汎用の大規模モデルではなく、特化型の小型モデルを使うことで、同等の精度を保ちながらコストを10分の1以下に抑えられる。「釘を打つのに大槌を使う必要はない」というある研究者の言葉通り、適材適所のモデル選択が鍵となる。

バッチ処理の活用も見逃せない。リアルタイム性が不要な分析や報告書作成では、複数のリクエストをまとめて処理することで、コストの大幅削減が可能だ。バッチ処理により、最大6倍のコスト削減を達成したケースが報告されている。

量子化技術の実装も現実的な選択肢だ。8ビット量子化は精度への影響がほぼなく、メモリ使用量を半減させ、処理速度を2~3倍向上させる。4ビット量子化でも、多くのベンチマークで元の性能を維持しつつ、モデルサイズを4分の1に削減できることが示されている。難しいタスクにはフルサイズのモデル、比較的容易なタスクには量子化モデルを使うなどの最適化が効果的となる。

こうした取り組みを組み合わせることで、劇的なコスト削減が可能だ。8ビット量子化モデルを安価なハードウェアで運用し、バッチ処理と一般的な回答のキャッシュを併用する場合、単純な実装と比較して5~10倍のコスト削減を実現することも不可能ではない。仮に、1億円のコストがかかっていた場合、それを最大1,000万円まで圧縮できる計算となる。環境だけでなく、企業経営という、2つの意味で「持続可能性」を実現できるこれらのアプローチ。AI時代を生き抜く上で、必須の知識として身につけておきたいところだ。

文:細谷 元(Livit