Googleの「音声文字変換」は夢の自動文字起こしを実現するか

TAG:

今、AIの進化を最も身近に感じられるのが、画像認識と音声認識という2つの技術分野。そしてこれらの技術分野を積極的に開発し、ユーザーサービスに生かしている代表格がGAFAM(Google、Amazon、Facebook、Apple、Microsoft)と呼ばれる、IT業界の巨人たちだ。

画像認識、音声認識をアクセシビリティに生かそうという取り組みも、積極的に行われている。

たとえばGoogleやMicrosoftでは、画像認識を用いて視覚障害者向けに、スマートフォンのカメラをで捉えたものを読み上げるアプリを開発。

Googleの「Lookout」は同社製のスマートフォン、Google Pixel(米国版)のユーザー向けに、Microsoftの「Seeing AI」は日本語には未対応ながら、すでにApp StoreでiPhone向けにアプリが公開されている。

Googleでは音声認識を用いた聴覚障害者向けのアプリも開発、提供を開始している。先日Androidアクセシビリティを担当するプロダクトマネージャーのブライアン・ケムラー氏が来日し、日本のメディア向けに説明会を開催。

同社のアクセシビリティへの取り組みと、今年2月にAndroidスマートフォン向けに公開され、現在Google Play ストア‎から入手できるアプリ「音声文字変換」と「音声増幅」のアップデートについて紹介した。

「音声文字変換では、まずマイクから音を拾って音声はクラウドに送信し、GoogleのクラウドスピーチAPIを活用して文字変換をしている。一方の環境音はデバイス上の機械学習機能を用いて判別し、それが何の音かを表示している」と説明する。

「WHO(世界保健機構)の調査によれば、世界で4億6,600万人の人々が聴覚障害を抱えている。これは15人の1人の割合で聴覚障害者がいるということで、人口にすると中国やインドに次ぐ、世界第3位の規模。また2055年までには高齢化などにより、約10億人が聴覚障害者になると予測されている」とケムラー氏。

そこでGoogleではこの1年半ほど、聴覚障害者に向けたアクセシビリティの開発に注力してきたという。「音声文字変換」と「音声増幅」も、そうした成果のひとつだ。

「音声文字変換」はその名前の通り、音声を文字に変換するアプリだ。起動してスマートフォンに向かって何か話すと、話した内容がほぼリアルタイムにテキスト化されていく。英語では大文字、小文字、句読点なども聞き分けることが可能で、ニュアンスや会話の中身も把握してテキスト化される。

たとえば「3時に3名で予約した」のように、同じ数字が繰り返し登場するような場合も、それぞれをしっかり認識してテキスト化できるという。「音声文字変換」は英語だけでなく、すでに日本語を含む世界70言語に対応。

さらに6月にはアップデートされ、音声だけでなく環境音を聞き取ってテキスト化する機能も追加された。これは口笛を吹く、拍手をする、あるいは動物や赤ちゃんの泣き声などを聞き取り、何の音がしているかをテキストで表すもの。これによって聴覚障害者は音声以外の音についても、把握することができるようになった。

音声をほぼリアルタイムに文字に変換できるアプリ「音声文字変換」は、日本語を含む70言語に対応。アップデートで変換したテキストの保存や、他のアプリでの活用も可能になった。

また同じく5月のアップデートで追加されたのが、変換したテキストを最大3日間まで保存できる機能。テキストのコピー&ペーストも可能になり、これによってテキスト化された内容を他のメモアプリやエディタに移して、編集を加えられるようになった。

つまり会議の議事録や、講演、インタビューの自動文字起こしに応用することが可能になったというわけだ。実際に英語ではかなり高い精度での自動文字起こしが可能。筆者も英語でのグループインタビューなどで何度か試したが、ノイズの量や話者との距離、滑舌、話すスピードなどに左右されるものの、十分に実用レベルと言える水準になっている。

自動的に文字起こしすることさえできれば、それを機械翻訳するのも容易になる。たとえば英語のスピーチの概要を把握する、といった用途にも役立てられるだろう。

Googleは「音声増幅」についても、7月にアップデートを公開。音を視覚で確認できるようにするなど、UXを大きく変更しより使い勝手が良くなっている。聴覚障害者だけでなく健常者もノイズの多い場所や、相手の声が小さくて聞き取りにくい場合などに活用できる。

英語では自動文字起こしにも実用レベルの「音声文字変換」だが、一方で日本語の認識率はそこまで高くない印象で、たとえば英語ではコンマやピリオドもしっかり挿入されるが、日本語では句読点が正しく挿入されない。

「言語ごとに機械学習のアルゴリズムのクオリティが異なっていることは認識しており、すべての言語モデルで常にアルゴリズムを改善する努力を続けている」とケムラー氏。自動文字起こしとはいかないものの、日本語もメモ程度には使えるので、このあたりはぜひ自分のAndroidスマートフォンで試してみてもらいたい。

Googleでは今後、音声の自動テキスト化をさらに推し進める計画で、次期OSの「Android 10」には「Live Caption」と呼ばれる新機能が搭載される。これはアプリを越えて、スマートフォン上で聞こえるすべての音に字幕をつけるというもの。

様々なアプリで再生される映像や音声をデバイスの機械学習機能を用いてリアルタイムにテキスト化し、字幕として表示する。クラウドを使用せずにローカルで処理する分だけ、より素早いレスポンスが可能になるという。まずは英語から提供される予定で、日本語の対応時期については未定。また「Android 10」ではこのほか聴覚障害者向けのアクセシビリティとして、専用機器を用いずに補聴器と連携できる機能もサポートされる予定だ。

取材・文:太田百合子

モバイルバージョンを終了