ボイスアシスタント


ボイスアシスタントとは、ユーザーの音声入力によってコンピューターが指示された機能を実行する機能である。


コンピューターの入力装置はキーボードやタッチパネルが知られているが、それらの入力装置は決められた操作を決められた手順で行う必用があるため、機械を不得手とする人間には操作しづらいという大きな欠点があった。ボイスアシスタントは音声という誰でも使える入力装置を用いることで、初めて操作する人間でも簡単に扱え、思い通りの機能を使いこなすことができる。


ボイスアシスタントは音声認識技術や自然言語認識技術を用いて操作者の発した音声を認識し、内容を分析して機能を実行する。人間の音声というものは発声者ごとの個性が強いため、正確な音声認識を実現するにはコンピューターの高い処理能力と膨大なサンプルデータが必要となる。


従来のボイスアシスタントはあらかじめコンピューターに組み込まれたデータを元に音声入力を処理していたが、スタンドアローンでのボイスアシスタント運用には能力的に限界があった。現在主流となっているのはネットワークと接続された端末を介して音声を分析するシステムである。このシステムでは入力音声の認識と分析はネットワークでつながったサーバー側で行われる。


端末側は入力装置さえあればいいため、性能に関係なくボイスアシスタント機能を実行可能となる。ネットワーク接続が切断されるとボイスアシスタントが使えなくなるという欠点はあるものの、端末側の負担を軽減することによってボイスアシスタントを普及することに成功している。


ボイスアシスタントは人間の音声という曖昧なものを対象にするため、要求される技術レベルが非常に高度である。「~して」「~したい」「~ってなに」と言った曖昧な問いかけを入力として処理するためにはサンプルデータの集積が求められる。当然対応言語ごとにサンプルデータを用意しなければならず、話者の少ない少数言語はボイスアシスタントの対象外となるケースも多い。


ボイスアシスタントはスマートフォンの機能として爆発的に普及した。代表的なものとしてAppleの「Siri」やGoogleの「Google音声入力」が知られるが、大手通販サイトAmazonが独自のボイスアシスタント「Amazon Alexa」を発表するなど新技術の開発も各所で進められている。


音声入力はコンピューターの抱える大きな課題である入力装置のハードルの高さという問題を解決する技術として注目を集めている。ボイスアシスタントが老若男女がストレスなくコンピューターを使えるための技術としてになるのではと期待されている。


【この用語の関連記事】