Amazon Echo上陸でデザイナーに求められる新技術「VUIデザイン」とは？

2017.11.12

ついに、「Amazon Echo」が日本に上陸したーー。

“Amazon Echo”が先行して普及した英語圏では、すでに多くのアプリケーション「Alexa Skill」が開発され、生活のさまざまなシーンで広く使われている。利用可能なアプリは2017年9月時点で2万2000を超えたと報じられており、同年2月には1万だったことを考えると、半年ほどで「倍増」したことになる。

アマゾンウェブサイトで提供されているさまざまな「Alexa Skill」

日本でも、さっそく”Amazon Echo”を購入し、アプリを開発したいと考える人は多いのではないだろうか。そこで今回は、手ではなく「声」で操作するアプリの開発に欠かせない新しい技術「VUIデザイン」、そして実際にデザインするための「5つのステップ」を紹介したい。

紹介してもらうのは、オランダ拠点のエンジニア、伊東知治氏。すでに一年以上前からAlexa Skillの開発に取り組み、AWSの神戸コミュニティー運営者でもある。

Echo アプリの開発に欠かせない「VUIデザイン」とは？

声で操作する”Amazon Echo”アプリの開発に欠かせない技術「VUIデザイン」とは、「Voice User Interface（声というユーザーインターフェース）のデザイン」の略。「声」というユーザーインターフェースの特徴を一言で表すなら、スマホを操作する手以上に、「人間にとって自然である」こと。

どういうことかーー。

例えば、手でスマホを操作する場合、「これをするためには、このボタンを押さなければいけない」といった具合に、ユーザーは「使い方」を習得しなければならない。一方、声でアプリを操作する場合、「使い方」という概念すら曖昧になる。自分の思うままに言葉を発すれば、それだけでアプリが応答してくれるからだ。

「その体験はあまりにも自然です。これまで手で何かを操作していたことが特別なことだったのだと気づかされるぐらいに」（伊東氏）。

つまり、手と指で操作するスマホよりも”Amazon Echo”は直感的なわけだ。すると、デバイスを操作する障壁は下がり、高い使用頻度が期待される。頻度が高まるほど、”Amazon Echo”はユーザーに関する情報をより多く収集できるようになる。その情報が、アマゾンにとってビジネスの新たな「原材料」となることは想像に難くない。

「手を使わない」ことがまったく新しい発想を可能にさせる

「声というインターフェースには、ビジネスを超越した面白さがあります。『手を使わない』というだけでこれまでとは違うインスピレーションがもたらされます」（伊東氏）。

伊東氏は、”Amazon Echo”はスマホを置き換える以上の、まったく新しいユーザー体験を生み出す点を強調する。

自然な会話で商品をオーダーできる、手を動かさずに知りたいことを調べられる、自分がやりたいことを先まわりしてやってくれる･･･スマホではありえないことができるようになるのだ。外国語教師のアシスタント、あるいは仕事の秘書、子どもの遊び相手、メンタルヘルスのカウンセラーにだってなれる可能性も大いに期待できるだろう。

あたかも自宅のリビングやオフィスに、自分以外にもう一人「人間」がいるかのように。しかもその相手は、子どもとでも会話できる。そう考えると、”Amazon Echo”の革新性に気づけるだろう。

開発の障壁はすでに失くなり、アイデアの発想にフォーカスできる

“Amazon Echo”アプリのアイデアを具現化するのに、技術的、金銭的な障壁があると想像しているなら安心していい。アマゾンが基盤となるエコシステム「Amazon Alexa」を提供しているため、ビッグデータを蓄積、解析するために膨大な計算能力を持ったコンピュータを保有する必要がないからだ。

ビッグデータの処理やディープラーニングに関する理論を理解したり、そのためのライブラリを使う必要さえない。付け加えれば、アマゾンはVUIをデザインするためのガイドラインまでも作成し、公開している。

アマゾンが提供するVUIの「Design Process」

つまり、デザイナーやエンジニアに求められるのは、提供されるWeb APIやSDKの仕様を把握し、「つなぐ」こと。だから、たとえ個人であってもスピード感を持って開発できるのだ。

「すでに環境は整っている。あとはアイデアとそれを形にしようと行動するだけ。この大きな波に乗らないのは、デザイナー、エンジニアにとっては機会損失かもしれない」（伊東氏）。

その上で、デザイナー、エンジニアに求められるのは、「会話をデザインする力」だ。具体的には、声の抑揚、高低、発話の長さ、単語の選び方、イントネーション、男らしい声、女らしい声、方言など特別な訛り･･･こうした要素を、デザインする際に考慮しなければならない。

そこで、具体的なVUIデザインのステップを伊東氏に解説してもらった。

VUIデザインの「5つのステップ」

VUIのデザインプロセスは、大きく5つに分けられる。

1.目的とユーザーストーリーの定義

まず、スキルの目的、スキルが提供できる価値を明確化する。使う前と後でユーザーの状況はどう変化するか、このスキルを使わなくても他の方法で代替できないか、このスキルで何ができて何ができないか、スキルが最も提供したい機能はなにかーー。

伊東氏が現在開発に携わっている、飲食店での注文を店員から”Amazon Echo”に代替するためのスキルを例にとって説明しよう。

レストランなら、ユーザーは当然、間違えずに料理をオーダーしたいと考えるはずだ。しかし、そのユーザーは注文したい料理がすでに決まっているのか、それともおすすめの料理を紹介してほしいのか。あるいは、ユーザーのどのようなニーズに、どこまで対応するのか。

それらによって、ステップ2以降で考慮する会話パターンの量や質が大きく変わる。

2.会話シナリオのサンプルを作る

1で定義した内容を念頭に置き、ユーザーはどんな声をかけてくるか、それに対してなんと応答すべきか、会話シナリオのサンプルを作る。

例えば、料理を注文する場合。ユーザー（客）はメニューの中から「○○が食べたい」と選ぶだろう。しかし、その言い方にもさまざまある。「○○をお願いします」、「○○がいいです」、「○○はありますか？」、はたまた「Alexa, ○○！」かもしれない。客の性格やアルコールの入り具合によっても異なるだろう。

同じメニューでも、サイズなどを選べる場合があるかもしれない。「サイズはどちらがよろしいですか？」と客に選んでもらうこともあれば、はじめから「ポテトはLサイズで」と指定される場合もあるだろう。

また、ユーザーの発話を受けてAlexaが行う応答においても、ユーザーの意図を正しく汲み取れるように気をつけなければならない。

例えば、ユーザーが「サラダを食べたいです」と発話した場合、Alexaは何と返すのがよいだろうか？「サラダの種類はいかがなさいますか？」と聞くべきか、「チキン、ビーフ、ハム、ツナと種類がございますが？」と聞くべきかーー。

そのときユーザーの手元にメニューがあるか、ないかによってもベストな返し方は変わってくる。このように、最初の発話とそのときどきの状況を想定し、ユーザーの意図を正しく認識できるよう、誘導するという観点が必要だ。

3.すべてのスキルをフローに書き起こす

2で作成したのは、あくまでも会話のいちパターン。料理の注文以外にも、追加でカトラリーを求められることもあれば、会計を済ませたいと言われる場合もある。ユーザーのニーズに対応するそれぞれのスキルについて、2のように会話の流れを考慮しながら会話のフローを作り込んでいく。

ユーザーによっては、「商品名だけ」を言われる場合、「商品名と数」を言われる場合もあるので、「何を、いくつ、そのサイズで」と言った具合に、会話の分岐を緻密に考えなければならない。

ちなみに、AlexaのスキルとユーザーのTwitterアカウントを連携するなど、事前に特別な設定が必要であれば、ユーザーがそれをどのように行うのかなどもここで定義しておく。スキルで対応しきれないエラーが発生した場合の発話の流れについても定義が必要だ。

4.会話のパターンを実際のセリフに落とし込んでいく

3で挙げた会話のパターンを、実際にデバイスが発話するセリフに落とし込む。このとき、「〜〜なさいますか？」ではなく、「〜〜にしますか？」とフランクな言い方にするなど、表現も調整する。

ユーザーによって異なるイントネーションなども踏まえた上で、発話の音調まで細かくシミュレーションしなければならない。なぜなら、Alexaはユーザーの発話を文字に置き換えてから解析しているのではなく、あくまで似た音調、音節をディープラーニングによってマッチングさせているからだ。

今後ユーザーが増え、Alexaの学習が進めば、似たような音調も正しく区別できるようになるだろうが、現状では開発者が意図したように動いてくれない場合もある。「対象、数、サイズ」など、一つひとつのスキルについて汲み取りたいユーザーの意図が増えれば増えるほど、会話のフレーズを考え、開発側が想定した通りのフローに流し込むのは難しくなる。

こうしてユーザーの意図を確実に汲み取れるように、会話パターンを作り込んでいく。ここが最も骨の折れる工程だ。

5.実装、テスト

そして最後は、4までで策定した会話のパターン、セリフを踏まえ、実装だ。デバイスに組み込んで自然な会話になっているか、ユーザーの意図を正しく汲み取れているかをテストし、会話のニュアンスを微調整していく。

アマゾン Echo Show

VUIを適切にデザインするために必要な一番の勘所は、ユーザーの意図を会話から正しく汲み取り、求められる応答をするためのロジックを考えること。

そうした観点や技術は、スマホアプリのUIをデザインするときに求められるものとは異なる。会話をリアルに想像し、「声」特有の性質を徹底的に考え抜く力が必要だ。

先述の通り、Alexa Skill の開発コストは凄まじく下がっている。学習や開発の入り口の障壁は抜群に低い。あと必要なのはアイデア、そして行動だけだ。