VUIデザインの「5つのステップ」

VUIのデザインプロセスは、大きく5つに分けられる。

1.目的とユーザーストーリーの定義

まず、スキルの目的、スキルが提供できる価値を明確化する。使う前と後でユーザーの状況はどう変化するか、このスキルを使わなくても他の方法で代替できないか、このスキルで何ができて何ができないか、スキルが最も提供したい機能はなにかーー。

伊東氏が現在開発に携わっている、飲食店での注文を店員から”Amazon Echo”に代替するためのスキルを例にとって説明しよう。

レストランなら、ユーザーは当然、間違えずに料理をオーダーしたいと考えるはずだ。しかし、そのユーザーは注文したい料理がすでに決まっているのか、それともおすすめの料理を紹介してほしいのか。あるいは、ユーザーのどのようなニーズに、どこまで対応するのか。

それらによって、ステップ2以降で考慮する会話パターンの量や質が大きく変わる。

2.会話シナリオのサンプルを作る

1で定義した内容を念頭に置き、ユーザーはどんな声をかけてくるか、それに対してなんと応答すべきか、会話シナリオのサンプルを作る。

例えば、料理を注文する場合。ユーザー(客)はメニューの中から「○○が食べたい」と選ぶだろう。しかし、その言い方にもさまざまある。「○○をお願いします」、「○○がいいです」、「○○はありますか?」、はたまた「Alexa, ○○!」 かもしれない。客の性格やアルコールの入り具合によっても異なるだろう。

同じメニューでも、サイズなどを選べる場合があるかもしれない。「サイズはどちらがよろしいですか?」と客に選んでもらうこともあれば、はじめから 「ポテトはLサイズで」と指定される場合もあるだろう。

また、ユーザーの発話を受けてAlexaが行う応答においても、ユーザーの意図を正しく汲み取れるように気をつけなければならない。

例えば、ユーザーが「サラダを食べたいです」と発話した場合、Alexaは何と返すのがよいだろうか?「サラダの種類はいかがなさいますか?」と聞くべきか、「チキン、ビーフ、ハム、ツナと種類がございますが?」と聞くべきかーー。

そのときユーザーの手元にメニューがあるか、ないかによってもベストな返し方は変わってくる。このように、最初の発話とそのときどきの状況を想定し、ユーザーの意図を正しく認識できるよう、誘導するという観点が必要だ。

3.すべてのスキルをフローに書き起こす

2で作成したのは、あくまでも会話のいちパターン。料理の注文以外にも、追加でカトラリーを求められることもあれば、会計を済ませたいと言われる場合もある。ユーザーのニーズに対応するそれぞれのスキルについて、2のように会話の流れを考慮しながら会話のフローを作り込んでいく。

ユーザーによっては、「商品名だけ」を言われる場合、「商品名と数」を言われる場合もあるので、「何を、いくつ、そのサイズで」と言った具合に、会話の分岐を緻密に考えなければならない。

ちなみに、AlexaのスキルとユーザーのTwitterアカウントを連携するなど、事前に特別な設定が必要であれば、ユーザーがそれをどのように行うのかなどもここで定義しておく。スキルで対応しきれないエラーが発生した場合の発話の流れについても定義が必要だ。

4.会話のパターンを実際のセリフに落とし込んでいく

3で挙げた会話のパターンを、実際にデバイスが発話するセリフに落とし込む。このとき、「〜〜なさいますか?」ではなく、「〜〜にしますか?」とフランクな言い方にするなど、表現も調整する。

ユーザーによって異なるイントネーションなども踏まえた上で、発話の音調まで細かくシミュレーションしなければならない。なぜなら、Alexaはユーザーの発話を文字に置き換えてから解析しているのではなく、あくまで似た音調、音節をディープラーニングによってマッチングさせているからだ。

今後ユーザーが増え、Alexaの学習が進めば、似たような音調も正しく区別できるようになるだろうが、現状では開発者が意図したように動いてくれない場合もある。「対象、数、サイズ」など、一つひとつのスキルについて汲み取りたいユーザーの意図が増えれば増えるほど、会話のフレーズを考え、開発側が想定した通りのフローに流し込むのは難しくなる。

こうしてユーザーの意図を確実に汲み取れるように、会話パターンを作り込んでいく。ここが最も骨の折れる工程だ。

5.実装、テスト

そして最後は、4までで策定した会話のパターン、セリフを踏まえ、実装だ。デバイスに組み込んで自然な会話になっているか、ユーザーの意図を正しく汲み取れているかをテストし、会話のニュアンスを微調整していく。


アマゾン Echo Show

VUIを適切にデザインするために必要な一番の勘所は、ユーザーの意図を会話から正しく汲み取り、求められる応答をするためのロジックを考えること。

そうした観点や技術は、スマホアプリのUIをデザインするときに求められるものとは異なる。会話をリアルに想像し、「声」特有の性質を徹底的に考え抜く力が必要だ。

先述の通り、Alexa Skill の開発コストは凄まじく下がっている。学習や開発の入り口の障壁は抜群に低い。あと必要なのはアイデア、そして行動だけだ。

< 前ページ