Facebookが、Facebook LiveとWorkplace Liveにおいて、AIによる字幕表示ができるようになったことを発表した。現時点では、英語、スペイン語、ポルトガル語、イタリア語、ドイツ語、フランス語の6つの言語でサポートされている。
同機能はFacebookのAI研究者とエンジニアが独自に開発したシステムを利用したもの。生のオーディオ信号から一連の単語を予測する自動字幕起こし技術は2000年代後半から使用されてきたが、会話型のスピーチでは必ずしも自然にはっきりと話したり、自分の番が来るのを待ったりするわけではなく、予測できないバックグラウンドノイズや、多種多様なアクセントと方言、および人間の音声に影響を与える音調などにより、正確な自動音声認識(ASR)は困難なものだった。
また、名前や専門用語など、一般的ではない固有名詞については多くの言語にわたって数億もの異なる単語を認識させる必要があったため、生放送でのASRは、制約されたASRよりもはるかに複雑になっていたという。
こうした課題を解決するために同社のAIチームは、発音発音レキシコンを排除し、エンドツーエンドシステムでより正確に単語の書記素(または文字)を直接予測するように音響モデルをトレーニングできることを発見。
その後、ハイブリッドシステムについても同じ方法でトレーニングできることが確認されたことにより、さまざまな言語でのこうしたASRモデルのトレーニングと展開が大幅に簡素化され、今回のサービスのリリースに至ったとのことだ。
同社は、「このシステムは、まだ完璧とはほど遠いものです」とコメント。今後もすべてのなトレーニングデータを収集することが困難、または不可能でさえある可能性があるため、システムに膨大な量のラベルなしのオーディオからも学習させることで改善および適応させる方法をさらに模索しているとのことだ。