AMP

AMP CLOSE×

LINE、国立国会図書館のデジタル化資料247万点のテキストデータ化を完了 昭和前期以前の資料に対応するOCRモデルを開発

LINE AIカンパニーは、国立国会図書館が保有するデジタル化資料247万点、2億2300万画像を対象とした「デジタル化資料のOCRテキスト化」作業を受託し、同プロジェクトにおいて、「CLOVA OCR」の技術によるモデル開発を実施、全文のテキストデータ化が完了したと発表した。

LINE、国立国会図書館のデジタル化資料247万点のテキストデータ化を完了

「CLOVA OCR」は、書類・画像に記載された文字等の情報をテキストデータへ変換するサービス。

今回テキストデータ化を行ったデジタル化資料の多くは昭和前期以前の資料であり、レイアウトも複雑なため、既存のOCRでは同プロジェクトに必要な精度に達しないことや、2億2300万枚を超えるデジタル化資料の処理に時間を要する点が課題であったという。

そのような中、同社のAI-OCRモデル研究開発チームにおいて、「CLOVA OCR」の技術(以下、ベースラインモデル)を元に、同プロジェクト用のOCRモデル開発を実施。

ベースラインモデルは、現代の書籍や文章、言葉・記号の用法に最適化されているモデルのため、今回のモデル開発において、文字サイズや字間・行間が不揃いな書籍や、本文と非本文(ルビ等)、書籍内のインク汚れや透けて見えている文字、右読みの文章など、昭和前期以前の資料特有の点についてチューニングを行ったという。

改善結果報告書より一部抜粋

結果として、全33区分中、1970年代に出版された雑誌資料を除く32区分で国立国会図書館の目標値よりも高い認識性能を発揮するモデルが完成、全文テキストデータ化に寄与したとのことだ。

改善結果や同プロジェクト結果の詳細については、国立国会図書館がNDLラボで公開している。

Vote

  • SDGsへの興味・関心はありますか?
  • SDGsの17の項目のうち、企業に特に取り組んでもらいたいのはどの項目ですか?(複数回答可)
  • SDGsに寄与している企業を評価しますか?
  • SDGsに寄与している企業の製品・サービスの利用について教えてください
  • 製品そのものがサステナブルなのかどうかは購買意思決定の基準になりますか?
  • ESG(環境・社会・ガバナンス)を意識した経営・取り組みを行っている企業に関心はありますか?
  • SDGs6「安全な水とトイレを世界中に」において、日本が抱える1番の問題はなん だと思いますか?
  • SDGs6「安全な水とトイレを世界中に」において、ご自身が取り組んでいることは以下のうちどれですか?(複数回答可)
  • SDGs6の達成のために、これからも意識して行動しようと考えていますか?