「ビッグデータ」という用語が注目されるようになって久しい。

ビックデータとは、膨大で複雑なデジタルデータの集合を言い、データを収集するだけではなく、蓄積、保管、共有、検索、分析することで人々の動向や問題の解決策、新しい価値を見出せる可能性がある。

そのポテンシャルは計り知れず、人工知能や機械学習を活用して、商品開発、マーケティングなどのビジネスのほか、医療、犯罪防止、科学、自然災害予測など、ありとあらゆる分野で活用され始めている。

2000年の歴史をマッピングする

そんなビッグデータがソーシャルメディアでも、検索エンジンでもなく、意外なところに眠っていた。「過去」である。

歴史上の人物が書き残したもの、公証記録、名も知れぬ医者の記録、商人たちの出納帳、古地図、絵画・・・ ミュージアムや大学、公文書館などに残されているありとあらゆる記録を収集して、ビッグデータを構築し、誰しもがアクセスできるプラットフォームに一元化する。そんな壮大なプロジェクトが今、ヨーロッパで進行している。

その名も「Time Machine FET Flagship」。2000年に及ぶヨーロッパの歴史をデジタル化してマッピングし、大規模シミュレータを設計しようというものである。

ヴェニス・タイムマシン・プロジェクト

 

リアルト橋付近の移り変わりを4Dで再現 ©Laboratoire des humaités digitales
このプロジェクトは2012年、ヴェネチアから始まった。スイス連邦工学大学ローザンヌ校でデジタル人文科学ラボを運営しているFrédéric Kaplan教授の旗振りの元、同大学、ヴェネチア大学との共同で「ザ・ヴェニス・タイムマシン・プロジェクト(The Venice Time Machine Project)」としてローンチ。

中世、共和国の首都として栄えたヴェネチアは、独自に行政システムを発展させ、住民登録から建物や運河建設の記録、貿易船の入港記録など、約1000年にわたるヴェネチアの生活の詳細かつ膨大な記録が残されている。

「これらの文書や画像の記録をすべてデジタルでデータベース化し、インデックス化し、セグメント分けして検索可能にする。我々の遺産である過去の記録 “Big Data of the Past” を、現在の出来事のように検索、調査することを可能するプロジェクトです」と、Kaplan教授。

ヴェネチアのアーカイブの一部。すべての書棚を合わせると約80kmにもなるという膨大な数だ ©Hillary Sanctuary

アーカイブのデジタル化、インデックス化そのものは目新しいものではない。このプロジェクトが画期的なのは、大きく2点である。

まず、今までかつてないデータ収集の量であること。ヴェニス一都市だけでも19万の記録、72万点の画像、3,000本もの書籍のデジタル化で、所蔵されている記録の1%にも満たないという。次に、ヨーロッパ史上かつてない規模のビックデータ収集に、ディープラーニングなどの高度な機械学習やAI技術を取り入れることでリフェレンスだけではなく、シミュレーションも可能にすることである。

例えば、「1323年6月、コルフ島からコンスタンチノープルに行くベストな月は? コストは?海賊の遭遇リスクはどのくらい?というような質問をシミュレートすることが可能になる」とKaplan教授は言う。

2012年にスタートしたこのプロジェクトは、2016年のマニフェスト宣言をへて、EUの大規模プログラム「FET(Future Emerging Technologies)Flagships」の一環として、範囲をヨーロッパに拡大、32カ国、200の組織、団体、企業が参加し、人文科学史上かつてない規模で進行している。

過去のビッグデータでネットワークを構築する

このプロジェクトには、IT技術の飛躍的な進歩を遂げた現在だからこそ可能な様々な技術が採用されている。

 

大量スキャンのイメージ ©Bread and Butter SA.
例えば、スキャン技術に関しては、劣化が激しい数百年前の文書を損ねることなくページをめくるロボットアームや、複数枚を同時にスキャンできる大型の回転式高速スキャナー、本を開くことなく全ページがスキャンできるコンピュータトモグラフィー技術などを採用。

最大の課題である書き文字やその土地特有の方言などの同定は、歴史家、古文書学者、公文書保管人などが名前、場所、キーワードを書き出し、コンピュータに文字認識やパターン学習をさせてアルゴリズムが文書から単語を抽出、検索可能なデジタルテキストに変換させる。

名前、場所、時間などの検索ワードから複数のドキュメントやマップがヒットする検索エンジンも開発している。また、テキストだけではなく、画像でも検索できるシステムも構築中。例えば、絵画のコンポジション、描かれている人物たち、もの、パターンなどを学習させて、関連していたり、似ている画像を抽出させることが可能だという。

そのように検索対象物のクロスリフェレンスを可能にすることにより、今まで歴史家に読まれることなくアーカイブに眠っていた人物の住所や仕事、家族構成や仕事などのソーシャルネットワークが、あたかもFacebookにアップしたかのように生き生きと立ち上がってくるようになる。

 

機械学習による書き文字の認識 ©Andrea Mazzei (EPFL), Matthieu Simeoni (EPFL), Bread and Butter SA
専門家でさえ一週間で数ページ読み進めるのがやっとという難解な古文書、あるいは顧みらえられることのなかった記録が、瞬時に、しかも多岐にわたって検索できるというのは、歴史学や人類学に画期的な発展をもたらすのは間違いない。

疫学、経済学、ツーリズム・・・膨らむ実用化への期待

そして、このプロジェクトに期待しているのは、歴史の研究者だけではない。疫学では感染症がどのように広がったのかが膨大な死亡記録から調べることができ、経済学では資本主義の台頭、経済成長、金融危機などの記録をヨーロッパのスケールで俯瞰することで、新たな視点から現在の金融市場を解釈することができるかもしれない。


ドイツの都市ドレスデンのあるとマルクト。4Dブラウザで現在と1930年の姿を重ね合わせる ©Media Center Dresden

ツーリズムやメディア産業も大きな期待を寄せているビジネスセクターのひとつである。ARや3Dアプリケーション、時間軸というレイヤーをかけて、過去の街をあたかもグーグルストリートビューで閲覧しているような4Dブラウザなどが考えられる。

このプロジェクトに参画しながら、独自にビックデータプロジェクトを推進しているドレスデン工科大学のSander Münster氏は、「情報システムは4Dブラウザなどの技術だけではなく、コンテンツ、ユーザーのニーズなどが複雑に交差する社会技術でもあります。これら全ての領域をカバーしながらリサーチを進めるのは、リサーチャーとして大いに興味が尽きません」。

過去2000年にわたるビッグデータを様々な観点から関連づけ、運用できるようになれば、30数年前、インターネットの一般普及と同様のパラダイムシフトを様々なビジネスセクター、アカデミアにもたらすだろう。

また「歴史から学べ」というのはよく聞くセリフだが、このプロジェクトでは、現在と切り離された過去ではなく、私たちが今、立っている場所は、まさに過去の様々な出来事の延長上にあるということを実感を伴って伝えてくれるはずである。今、ヨーロッパで過去を旅するタイムマシンが新たな窓を開きつつある。

文:水迫尚子
編集:岡徳之(Livit
eye catch img: サン・マルコ広場 ©Laboratoire des humaités digitales