日本電信電話(NTT)は2019年5月27日、さまざまな音に対して、それがどんな音かを説明するテキスト(擬音語や説明文)を生成する技術を開発したと発表した。

この技術は、マイクロホンで収録した音や録音物に対して、その音を描写した擬音語や説明文を自動生成する。さまざまな音を文字にすることができ、見ただけでどのような音かを把握できるようになる。

単語誤り率7.2%、平均音素誤り率2.8%でほぼ妥当な擬音語を生成

この技術は、学習段階と生成段階とからなっている。学習段階では、音響信号に対してどのような擬音語や説明文が当てはまるかのデータを教師データとして、多層ニューラルネットワークに学習させる。

ニューラルネットワークは、音響信号特徴の時系列を潜在特徴と呼ばれる固定次元のベクトルに変換するエンコーダと、その潜在特徴をテキストに変換するデコーダの、2つの部分から構成されており、学習段階ではこれらの双方を学習させる。生成段階では、学習済みのエンコーダに音響信号特徴の時系列を入力して潜在特徴を得た後、その潜在特徴を学習済みのデコーダに入力すると、文字列を得ることができる。

所定の音響データセットに対してどの程度適切な擬音語生成ができるかを評価したところ、人手で付与した擬音語を正解とみなした客観評価実験において単語誤り率7.2%、平均音素誤り率2.8%となり、ほぼ妥当な擬音語が生成できることがわかった。

また、生成された擬音語が人間にとってどの程度受容できるかを主観評価実験で調べたところ、78.4%の受容率が得られた。これは、人手による擬音語を上回る値であり、所定の音響データに対して、この技術により概ね妥当な擬音語が生成されることが裏付けられた。

音に対する説明文生成では、説明の仕方(詳しさ)に絶対的な正解はないという。そこで、同技術では、どの程度の詳しさで説明するか指定することによって目的に適った文を生成できるようにする工夫を施している。これを条件付き説明文生成法(CSCG法: Conditional Sequence-to-sequence Caption Generation)と呼ぶ。この手法では、詳細度と呼ぶ数値をデコーダへの補助入力として導入。

学習段階では、詳細度の値と出力されるテキスト系列の双方の誤差が少なくなるように学習を行う。生成段階において、対象とする音響信号と望ましい詳細度の値とを入力すると、その詳細度に近いテキストが生成される。このような方法をとることで、場面や用途に合うように、短く端的な説明や、長く詳しい説明を得ることができる。

音のデータベースの検索が可能に

この技術はさまざまな応用が可能と考えられる。その一つが音の検索である。同技術を用いると、潜在空間における近傍探索によって、擬音語や説明文を問合せとして、音のデータベースを検索することが可能になる。

この時、音響データベースに対して事前にテキストのタグを付ける必要は無く、任意の詳しさの説明文を問合せにすることができ、また、数多くの検索結果を潜在空間における近さの順に並べて出力することができる。

擬音語や説明文が近い音、つまり人間にとっての聞こえ方が近い音どうしが潜在空間において近くに位置付けられるため、主観的な「聞こえ方」の近さに基づく音の検索が実現される。

今後は、音の検索の他に、動画中の音を文字で表現することで動画視聴の幅を拡大することや、AIが人間に近い音の感覚を身につけることでAIと人間との日常のコミュニケーションを円滑にすることなどが期待できるとしている。