デジタルアシスタントの可能性。iProspect社が描く音声認識技術の未来とは

デジタルアシスタントといえば、あなたは一体何を思い浮かべるだろうか。

デジタルアシスタントと聞いて、筆者が最初に思い浮かべたのは、Apple社の「Siri」といったスマートフォンのAIアシスタント機能や、Amazon社のスマートスピーカー「Amazon Echo」に搭載されている「Alexa」、同じくスマートスピーカーで、Google社の「Google Home」に搭載されている、「Googleアシスタント」などだ。

ここ数年、日本国内でも注目を集めているデジタルアシスタントだが、日本でスマートスピーカーが普及し始めたのは、今から2年前、2017年の秋頃だと言われている。

調査会社eMarketersが、2019年8月に公開したレポート「Voice Assistant Use Reaches Critical Mass」によると、アメリカ国内では、2018年に国民の1億200万人が、少なくとも毎月デジタルアシスタントを使用しているとし、また、2019年には9.5%増加すると予測している。


参照:Voice Assistant Use Reaches Critical Mass

これは、アメリカのインターネットユーザーの39.4%と、全人口の33.8%に相当する数値である。

さらに、同社の調査では、アメリカの音声アシスタントユーザーの数は、2021年までに、アメリカのインターネットユーザーの42.2%、人口の36.6%にあたる、1億2,270万人にまで達すると予測している。

それでは、日本国内では、どの程度普及が進んでいるのだろうか。そんな疑問を打ち消すべく、2018年4月、デジタルパフォーマンス・マーケティングエージェンシーのiProspect Japan社(アイプロスペクト・ジャパン株式会社)は、日本、中国、インド、インドネシア、シンガポール、オーストラリアを対象に、音声技術に関するマーケット調査「The Future is Voice Activated – 未来は音声認識 -」を行った。

同調査によると、日本ではスマートフォンユーザーの40%しか音声技術を使用しておらず、他のAPACマーケットほどの成長率を記録していないということが明らかになった。海外諸国では普及が進む中、日本ではどうしてここまで普及が進んでいないのか?また、今後の日本のデジタルアシスタント市場はどのように発展を遂げるのか?

そこで今回、同社で音声認識技術ディレクターとして、Googleとの共同開発など、グローバルな活動を行っているネイト・シュリラ氏に、日本における音声デジタルアシスタントの実態や、今後の課題などについてお話を伺った。

APAC6ヶ国中、日本は最下位。デジタルアシスタント普及率

——音声認識技術ディレクターとして活動内容を教えてください。

ネイト・シュリラ氏(以下、ネイト氏):音声認識技術ディレクターとして、日本でグローバルの音声認識事業を担当しています。この事業は約2年ほど前に立ち上げたのですが、現在はAPACに対し、集中的にアプローチしています。

近年、日本も含めアジアで音声認識が広まりつつあります。それと共にボイスサーチ(音声検索)が注目されるようになりました。そのような背景もあって弊社でも「音声認識と同時に、ボイスサーチも重要な領域である」と考え、力を入れるようになりました。

この事業に注力するにあたって2018年に、APAC6ヶ国(日本、中国、シンガポール、インド、インドネシア、オーストラリア)を対象に調査し、以下の結果が出ました。


参照:iProspect(アイプロスペクト)「The Future is Voice Activated – 未来は音声認識-」より

他にも、ヨーロッパやラテンアメリカなども調査をしたのですが、音声検索に対し、一番遅れているのがヨーロッパ、また、一番進んでいるのがAPACという結果が出ました。そして、ラテンアメリカに関しては、APACの平均以上に音声検索が広まっているという結果でした。

一方で、アメリカにおいては世帯の半数以上が、スマートスピーカーを持っているという結果が出ています。それだけ家に置かれているとなると、さらなる面白いチャネルを生み出すことも可能です。

これらのインサイトを元に、ボイスSEOなどの音声認識対策、音声検索のアプリの作成や普及などに、乗り出すことになりました。

——日本国内で、デジタルアシスタントの普及率が低い理由は、日本市場のどのようなところに原因があると思いますか?

ネイト氏:日本での普及率は、アジアの中では現在最下位ですが、実は世界的には高い方です。例えば、ヨーロッパの普及率はまだ3割程度で、日本の普及率よりも低い状況です。

日本やヨーロッパの普及率が低い原因としては、双方共に元々の生活水準が高いことが関係していると思います。今の生活への満足度が高いため、そういった意味では新しいことを取り入れることへのマインドが、アジアの他の国より弱いのかもしれません。

また、日本人にはマナーを大事にしたり、周りを気にする習慣があります。普及させるためには、例えばスマートスピーカーや、音声アシスタント搭載の車など、プライベート空間で使用できる製品の普及が、今後重要な鍵となってくるのではないかと思います。

出前館の好事例がAlexaの認知をもたらすきっかけに

——今までのインターネットといえば、テキストが主流だと思います。音声という新しい領域が加わることにより、今後、既存のコンテンツはどう変わっていくと思いますか?

ネイト氏:良い事例があります。先日、出前館が音声認識のアプリを作成し、Alexa経由で出前を行うことができるようにしました。

また、それだけではなく、出前館は「初回の注文に限り、期間中最大1万円のキャッシュバック」というキャンペーンを開催しました。これがTwitterなどで大きな話題となりました。

その結果、注文が殺到しすぎてしまい、サーバーがパンク寸前となったため、急遽3日も前倒しで早期終了になりました。

アマゾンジャパンの方によると、その時に使用されたAlexa搭載デバイスの中で、スマートスピーカーは2〜3割程度しかなく、Fire TVが半数以上を占めていたそうです。Echoだけでなく、Fire TVにもAlexaが搭載されていると初めて知ったユーザーは多くいました。また、このキャンペーンで初めてAlexaを使ったという方も多くいました。

これには「Alexa、出前館開いて」というだけで、画面にすぐメニューが映り、簡単にその中から注文したい商品を選ぶことができるなど、とても利便性が高かったということが理由として考えられます。

さらに、このキャンペーンでは、ディスプレイが搭載されていないデバイスを使用した場合、注文履歴から再注文するか、食べたい料理を指名するか、いずれかの方法をメインとしていましたが、ランダムなおすすめを頼むこともできました。

すると、ユーザー間で、12,000円のお寿司など、良い商品が出るまでAlexaでリセマラ(リセットマラソン)をするという試みが、一気にTwitterでバズったんです。

こういった細かい作業を、面倒だと思わずに夢中になって取り組むのは、正に日本人ならではの風潮だと思います。こうした成功例を受け、今後こういったデジタルアシスタントを使ったサービスを展開していく事業は増えていくのではないかと、我々は考えています。

10億人の次世代インターネットユーザーの到来

——音声検索の登場により、従来の検索との差別化というよりも、検索の自由度が拡張し、エクスペリエンスが高まりそうですね。

ネイト氏:そうですね。ラテンアメリカ、中国、インド、インドネシアには、デジタルアシスタントを利用しているユーザーが多いという調査結果が出ていますが、元々、従来のシステムでは、読み書きができない人は、文字をタイプして検索することも不可能であるため、インターネットを使用することはありませんでした。

しかし、今ではテレビやラジオ、友達との会話でしか情報を得られなかった人も、音声認識技術によって、インターネットを使うことが可能となり、新たな世界に足を踏み入れることができるようになりました。

今挙げた国や地域で、インターネットやモバイルの普及が加速している理由には、そういった背景があります。

また、これらの地域では、スマートフォンの機能を昔のガラ携ボディーに入れたスマートフィーチャーフォン―「Kai OS」というオペレーションシステムを採用した携帯―が近年普及しています。

それらにはタッチスクリーンが搭載されておらず、私たちには一見不便に感じますが、代わりに真ん中に大きなマイクがあり、音声検索をすることが可能です。

今まで発展途上で最新テクノロジーには無縁だった世代が、このような機能でインターネットを活用し始めていることを受け、Googleはそういった次世代のインターネットユーザーのことをNext billion users(次の10億人ユーザーたち)と呼んでいます。

我々は、彼らに向けた商品やアプリの開発などに力を入れていくことで、インターネットで体験できる価値を最大化していくことを考えています

——日本での普及率や、課題を解決するためには、どのようなアクションが必要ですか?

ネイト氏:日本人は、とても集団心理が強い傾向があります。しかし、出前館の事例のように、バリューや利便性があることさえ広まれば、皆がそろって使うようになるはずです。そのためにも、いかに認知されるかが重要なのではないかと考えています。

現在では、20代から40代ぐらいまでの利用者が多いのですが、今後、日本は超高齢社会へと突入します。しかし、音声操作であれば、パソコンやモバイルなど、ディスプレイを操作することが苦手だという年配者の方でも、容易に使うことができます。

私はボイスコマース事業にも携わっているのですが、実は画像検索と音声検索の相性はとても良いんです。

通常の方法で何かを検索する場合、まずはその検索しようとしているものが何なのかを把握している必要があり、名前を知らないと検索しにくいということが難点です。

しかし、画像検索であれば、名前を知らなくても、例えばFire TVなどでドラマを観ている時に、画像認識を使って「主人公が来ているジャケットは何?」と聞けば、「Amazonで5,000円で売っています」などと簡単に調べることができます。

さらに「Amazonで買って」と指示することによって、ディスカバリー、リサーチ、コンバージョンまで、一ヶ所で完結することができるわけです。

このように、デジタルアシスタントには色々な活用方法があるにも関わらず、現在の日本では、AIの音声アシスタント=スマートスピーカーという認識が目立ちすぎてしまっており、どういったことが可能なのか、どういった操作をするのかなどの認知が低い印象があります。

また、日本の企業は非常に保守的で、誰かが先頭を切らない限り、企業はリスクを恐れ二の足を踏んでしまうことが多いです。

ですが、今回の出前館の事例のように企業側が盛り上げていくことによって、消費者にも浸透し、デジタルアシスタント業界が盛り上がっていくのではないかと思います。

世界中に変化をもたらす、音声アシスタントの無限の可能性

——今後、デジタルアシスタントの技術が発展することで、消費者・ブランド・社会へのどのような影響を与えていくと思いますか?

ネイト氏:今後、知識の面では、AIで色々なことをカバーできるようになります。そうなると、教育に関しても、デジタルアシスタントを利用し、良い教育を提供することができるようになります。

例えば、最近インドで「Bolo」という子供向けのアプリがローンチされました。これは、AIアシスタントのキャラクターが、単語の意味を説明する、一緒に単語ゲームをしながらヒンドゥー語や英語を教えるという、語学学習アプリです。

実際に、インドの一部の地域で数ヶ月間このアプリを子供たちに使ってもらった結果、なんと64%の子供たちの読解力が高まったというリサーチ結果が出ています。

こういった事例のように、様々な分野の先生方のノウハウを搭載し、デジタルアシスタントを作成すれば最高の先生ボットを作ることができます。AIであれば、同時に何人とでも会話が可能で、また、個人個人に合った教え方ができるという強みが生まれてくるのです。

そうなれば、我々人間たちの教育もより効率よく、より効果的に、向上していくのではないでしょうか。

——最後に、音声認識技術ディレクターとして、今後どういった活動を行っていきたいとお考えですか?

ネイト氏:我々のグループには、様々な特性を持った会社があります。

それぞれの会社のカラーや強みを融合させれば、音声認識だけではなく、音声認識の要素を含んだ大規模のメディア戦略を練ることができると確信しています。

そのため、今後は、iProspect単体だけではなく、グループ内の様々な会社を巻き込み、幅広く音声認識に取り組むことが目標です。

そして、デジタルアシスタントのさらなる普及に努め、企業や消費者と共に、市場を盛り上げていきたいです。

取材・文:sayah

モバイルバージョンを終了