NTTは、ネットワークやグラフを含む関係データ(例:ユーザの商品購買歴などの行列データ)解析のための機械学習技術として、事前にモデルの構造やパラメータが与えられない場合でも、これらをデータ駆動的に最適化して学習し、データをクラスタリングする手法を実現したと発表した。
統計的機械学習技術の設計において、統計モデル・学習モデルの規模やパラメータの設定は、一般にデータ解析結果に大きな影響を及ぼす重要な問題となっている。
しかし複雑化する現代において、データの規模も増大し、その特性も多種多様となり、モデルの規模やパラメータを、与えられたデータに合わせて適切に設定する作業を人手で行うことは膨大な時間と労力を要する難しい課題であるとのことだ。
そこで、統計モデル・学習モデルが、モデルの規模やパラメータをデータ駆動で自動的に調整する手法の需要が高まっている。同成果は、任意のサイズの関係データを長方形分割によってクラスタリングする際に、長方形分割の候補となるあらゆる組み合わせパターンを生成できる新しい確率的生成モデルと、最適な長方形分割をデータに合わせて調整しクラスタリングする効率的なデータ解析法を構築。
今後は、同技術の研究開発を進展させることで、より柔軟で自律的な人工知能の実現に向けた要素技術として貢献していくとしている。
なお、同成果は米国太平洋時間の12月6日から開催されている国際会議NeurIPS(Advances in Neural Information Processing Systems)2020のspotlight発表として口頭発表予定。
また、同成果の潜在的な応用可能性の検証を目的として、関連したコードをGithubにて公開しているとのことだ。
ネットワークやグラフなどの二次元配列データを、互いに類似するデータが集まっている長方形の領域(長方形クラスタ)に分割することは、データ解析の基本的な手法の1つ。
同成果では、任意のサイズのデータに対する長方形分割クラスタリングにおいて、あらゆる組み合わせ候補を生成できる新しい確率的生成モデル(確率的無限長方形分割モデル)を考案し、これを用いることで、長方形クラスタの分割数やそれぞれの大きさなどのモデルパラメータを、従来よりも分割パターンに関する制約が少なく、かつ実現可能な時間内で、データ駆動的に最適化できる機械学習技術を実現。
従来、ネットワーク・関係データからのデータ駆動型の長方形分割クラスタリング手法の多くでは、解析の結果得られる組み合わせ候補に何らかの制約を設ける必要があった。
例えば、候補を生成する際に、サイズが不規則な碁盤の目のように、格子状の領域に限って分割する手法(regular grid partitioning)や、データを大きなサイズの長方形に分割したのちに段階的に小さなサイズの長方形に分割するような手法(階層的分割hierarchical partitioning)が提案されている。
しかし、これらの手法では、生成できない組み合わせ候補が存在するという。
一方、提案する手法では、あらゆる長方形分割の候補を生成できることが理論的に保証されているとのことだ。
我々は同等の能力を持った解析技術を2014年にも提案したが、実装が非常に複雑で,多くの計算時間が必要であるという。
今回の手法では,2014年の手法と比較して実装が大幅に簡単になり、ベンチマークデータ課題に対する計算速度は2014年の手法を大きく上回ることが実験的に確認されているとのことだ。
例えば、入力データの要素数が250,000のとき、提案手法では2014年の手法に対し、同等の予測精度に達する計算時間が約半分に短縮された。
同手法は、入力データに対して、あらゆる長方形分割クラスタリングの候補をベイズ推論することによって解析結果を得ることができるという。
したがって、この手法を用いたデータ解析では、事前にモデルやパラメータに特定の条件を与える必要がなく、このような事前の知識・条件設定が不要である提案手法は、AIが人間の脳のように、様々な状況に合わせて自律的に適応する、自律的AIモデルを実現する可能性を大きく広げたといえるとのことだ。
同成果のポイントは、二次元配列(行列)の長方形分割に対して、任意のサイズの行列に対してあらゆる長方形の組み合わせ候補を生成できる、新しい確率的生成モデルを発見したことにあるという。
その確率的生成モデルの構成にあたっては、組み合わせ論の世界で発見された長方形分割の重要な性質を利用している。
長方形分割は、一見すると図形の操作を扱う幾何学的な問題のように捉えられるが、以下の手続きによって数字列の操作を扱う代数的な問題にすり替えることができるという。
長方形分割において、各長方形クラスタのサイズを不問とすると、それは見取り図分割(図、中央)と見なすことができる。
さらに、この見取り図分割の各長方形クラスタに対して特別な手順によって数字を割り当てると、各見取り図分割に対して一意に定まるバクスター順列(図、右)と呼ばれる特別な数字列を一対一に対応させることができるとのことだ。
結果として、ありとあらゆる長方形分割が、バクスター順列と各長方形クラスタのサイズという2つのパラメータを表す数字列によって過不足なく取り扱うことができるようになったという。
同成果では、先述の長方形分割、見取り図分割、バクスター順列の間の関係を利用して、データ解析へ適用可能な長方形分割の確率的生成モデルを構成。
まず、あらゆるバクスター順列を過不足なく取りつくすことのできるような確率的生成モデルを構成し、次にバクスター順列に対応する見取り図分割から長方形分割へ変換するための確率的なアルゴリズムを構成。
結果として、任意のサイズのデータに対する長方形分割クラスタリングにおいて、同成果において提案する確率的生成モデルが、あらゆる組み合わせ候補を生成できることを理論的に保証できたとしている。
この確率的生成モデルは、モデル自身の構造やパラメータをデータ駆動的に調整して、入力されたネットワーク・関係データを最適にクラスタリングできるとのことだ。
将来の展望について、同社は以下のように述べている。
ネットワーク・関係データに対するデータ駆動型の解析技術は、近い将来、様々な機械学習・人工知能技術へ積極的に導入されていくことが期待される。
例えば、ソーシャルネットワーキングサービスから得られる複雑で大量のデータの解析において、エンジニアによる学習モデルの高度な調整を補助するような活用が考えられる。
また、ニューラルネットワーク深層学習における学習済みネットワークからの知識獲得や、データ・アプリケーションに最適なネットワーク構造の設計を補助する場面での利用可能性もあるとのことだ。
さらに、複雑なデータに対するデータ駆動型の解析技術は、より長期的な機械学習・人工知能の研究開発の発展において、人間の能力に迫り、また人間を超えるような人工知能の実現へ向けて今後より一層その重要性が増していくと考えられる。
例えば、現在、ニューラルネットワーク深層学習技術は、様々な課題において人間に迫る能力を示すようになりつつあり、そのネットワーク構造は、当初、人間の神経細胞ネットワークからの類推で設計されていたが、徐々にデータ・アプリケーションに応じた固有の構造に発展しつつあるという。
データ駆動型のデータ解析技術は、モデル構造自身をデータから積極的に学習できる。近い将来、人間が一生かかっても体験することのできないような膨大なデータを機械が学習できるようになった際には、提案技術を利用することで、人類とは違った進化を遂げた人工知能が生み出される可能性があるとのことだ。