大日本印刷(以下、DNP)は、PDF、Word等の多様なドキュメントを生成AIの学習に適したデータ形式に整形する技術を開発したことを発表した。

DNPは2023年5月に生成AIを活用できる社内環境を構築し、今回同技術を用いて、社内規定、品質マニュアル、決算短信などのドキュメントのデータを整形し、生成AIに学習・参照させて実証実験を実施。結果として、整形したデータを用いた生成AIは、従来の生成AIと比較して誤回答を約90%削減したという。

整形データを学習した生成AI(左下)と学習していない生成AI(右下)との回答例の比較

同技術は、テキスト・画像・表組等が混在したドキュメントから、独自のAIモデルを使ってタイトルや本文、画像や表の内容・キャプションなどの要素ごとにコンテンツを分割し、生成AIが学習・参照しやすいデータ形式に整形。データ整形は人手をほぼ介さずに機械処理で行うため、大量の文書も高速に処理できるという。

さらにDNPが開発したAIモデルは、一般的なディープラーニング(深層学習)のモデルでは数百~数千ページのデータ学習が必要となるところ、数十ページのデータ学習で生成AI向けのデータを整形することが可能となっている。

生成AIの回答精度を高めるDNPのデータ整形技術の概要イメージ

同社は、2024年1月に、生成AIの導入や活用、生成AIに必要な学習データの加工・収集に課題を持つ企業・団体に向けて、同技術を提供するという。

また、契約書・帳票類・業務マニュアル等、膨大なドキュメントを取り扱う自治体や金融機関に、生成AIを活用して業務のデジタルトランスフォーメーション(DX)につなげるサービスを開発し、企業・団体の業務改革の実現を目指すとのことだ。