2000年代後半から大きく成長している、スマホとソーシャルメディアのプラットフォームを土台としたマーケット(アプリや広告など)は2010年代後半の今、もはや成熟期にあるとも言え徐々に飽和しつつあります。
そんな中、次なる大きなプラットフォームとしてVR/AR、IoT、人工知能、ブロックチェーンなどのテクノロジーが注目されているのは周知の通りでしょう。
多くの企業やスタートアップがそれぞれの分野でいち早くキラーアプリをリリースし、あわよくばそのプラットフォームになろうと凌ぎを削っています(スマホのプラットフォームであるiOSやAndoroidを見ても分かる通り、そのポジションを確立することは多大なる利益をもたらします。)。
そんな次なる巨大プラットフォームの座を手にするのに、王手を打っている企業はVRのFacebookや人工知能のGoogleでもなく、”音声”コミュニケーションを握っているAmazonといえるのではないでしょうか。
同社が提供する音声アシスタント「Alexa(アレクサ)」は2017年はじめ、CESを通して世界中のハードウェアメーカーやデベロッパーなど、各サードパーティに対してそのエコシステムの存在感を大きく示すこととなりました。
なぜ音声が次なるプラットフォームを手に入れる鍵となるのか、なぜAmazonのAlexaはサードパーティを巻き込むことができるのか、チャットボットの文脈も踏まえつつ以下に詳しくみていきたいと思います。
プロダクトの操作はキーボード、タッチスクリーン、そして声へ。

2017年のCESで見せたAlexaの圧倒的な存在感
Amazonの音声アシスタントであるAlexaが搭載されるスピーカー、Amazon Echoが2014年の販売以降、売れに売れKindle以来のAmazonのハードウェア商品のヒットとなっていました。 そして、そのAmazon Echoのその中に搭載されている音声アシスタント、「Alexa」によるエコシステムプラットフォーム展開の実現がすぐそこまで来ていると感じたのが1月に開催されたCESです。
CES(コンシューマ・エレクトロニクス・ショー)とは世界最大の家電見本市で、大手家電メーカーはこの時期にあわせて、新製品のリリースやプロトタイプの展示をしたり、提携などの大きな発表を行ないます。
東京ビッグサイト4つ分+幕張メッセをあわせたくらいの会場規模で、そこに4日間、3,600社以上の展示を見るために20万人近い参加者が世界中から訪れます。
すごい規模ですよね…昔までは家電メーカーのためのイベントだったのですが、今ではIT企業の展示も多く、未来を体験できる世界随一のイベントとなっています(ちなみに今年の基調講演の目玉は機械学習用のCPUである「GPU」の開発メーカーNVIDIAが行っていました)。
多くの企業が豪華絢爛なブースを出店しPRに励むのですが、そんなCESでブースを一つも出さずとも最も存在感を出していたサービスがあったといいます。それこそAmazonが開発する音声アシスタント「Alexa」です。今回のCESで発表されたうちの700もの製品内にこのAlexaが組み込まれ、各メーカーのガジェットは音声で操作ができるようになっていたというのです。

Alexaが搭載された製品は「音声」というインターフェイスを容易に獲得でき、それはつまりそのコンパニオンデバイスであるAmazon Echoを介さずとも直接その製品と会話できるようになるわけです。それを実現するのが同社が提供する「Alexa Voice Service(AVS)」であり、これを使えばサードパーティのデバイスメーカーやアプリケーション開発者は自社製品にAlexaの音声コントロールを追加することができます。
Alexaが「Amazon Echo」の檻を超えて、あらゆるデバイスの中から話しかけてくる現実をCESで多くの人々は目の当たりにすることになりました。
実際、AVSの利用は以前から可能でしたが、CESでここまで多くの”Enable Alexa”なプロダクトが揃いも揃っていることが、業界に大きなインパクトをもたらしたと言えるでしょう。
自動車、絵本読み上げ、スマホ、冷蔵庫、洗濯機、ロボット、テレビ、ランプなど、大量のAlexa搭載製品が発表されたそうで、Cerevoの岩佐琢磨氏は自身のブログで「家電から車まで、何もかもがAmazon Alexaに蹂躙された」と述べています。
上記フォードの例など利用イメージがとてもわかりやすいですよね。これらの事例が拍車をかけ、各メーカーやデベロッパーはより多くのAlexa搭載サービスを生み出すことでしょう。
それはつまり、10年前にiPhoneが切り開いた「タッチスクリーン」という革命的なインターフェイスは過去のものになるとも言えます。あらゆるデザイナーは会話から価値あるユーザー体験を生み出す必要にかられるでしょう。
なぜ音声アシスタントがこれからのプラットフォームになりえるのか?

おそらくこの現実を踏まえて、多くの企業はAlexa対応製品やサービスの優先度を高めているかもしれません。そのような空気感を醸成できたというだけでも、Alexaがこれから多くのプロダクトを繋ぐプラットフォームになる可能性が高いと思うのですが、以下にAlexaに限らず”音声”によるインターフェイス、および最適化されたサービスが今後普及してくる理由を述べたいと思います。
1.多くのモノはインターネットと繋がりますます高度なことができるように
その大きな理由の一つに今後爆発的に増えるであろうIoTプロダクトの存在があげられます。※例えばソフトバンクは「1兆個のデバイスがインターネットに繋がる社会」を作るためARM社を買収するなど動きをみせています。
インターネットに繋がりソフトがその中で走るハードウェア、その操作をタッチパネルやボタンではなく音声としたほうがUXが最大化されると筆者は考えます。冷蔵庫、洗濯機、テレビ、車など生活に必須な製品を操作するのを思い出して欲しいのですが、それぞれタッチパネルやボタンがあり最初使い方を覚えるのも一苦労なのではないでしょうか。
今後、これらの製品はwebに繋がり利用データをクラウドに蓄積していくことで、AIの力も加わりさらに便利になるでしょう。
例えば上記の例でいうと、
【冷蔵庫】オススメのレシピ提供や不足品の買い足し案内
【洗濯機】衣類や天気にあった洗い方を自動で選択
【TV】ストリーミング再生や最適な番組の提案
【車】渋滞回避、自動運転時における車内でのアクティビティ
などさらに便利になることが予想されます。
それら操作を指で一つ一つ機能設定したり情報を呼び出したりすることをイメージしてみてください。できることはたくさんあるのにその制御の仕方はスマートと呼ぶには程遠いでしょう。恐らく何をどうすべきかよくわからず、そのほとんどの機能の存在を知ること無く製品寿命を迎えるかもしれません。
そう、つまりIoT時代においては「指で制御」することは適しておらず、前時代的と言えるのです。まずはたくさんの高額商品(家電・家具・インフラ周り)に囲まれた自宅、そして両手が塞がる車、そして効率化が求められるオフィスにて音声コントロールによる製品が浸透していくと考えます。
確実に来るであろうIoT時代、その普及のスピードはボイスによる制御技術の進化に比例にすると言っても過言ではありません。
また世界中におけるスマホの普及により、IoT製品開発に必要なチップなどの原材料の調達コストが大幅に下がったことが、その流れを後押ししたというのも補足しておきます。
2.音声認識の技術が急速に高まっている
近年、ディープラーニングの技術が急速に発展しているのも周知の通りかと思いますが、その中でも「画像認識」と「音声認識」の分野で突出した成果を出しています。
どちらにおいても今や人間よりも高い精度で認識をするレベルまで来ており、画像に至っては認識するどころか言葉を入力すれば画像を自動生成するほど!
音声でいうと今ではプロの速記者と同程度の認識をするレベルまで来ており、既に人に話をするよりもロボットに話をしたほうがその認識率は高い数値となっています(マイクロソフトのAIチームの実績ですが早くSiriにもその技術を取り入れてほしいものです…笑)。
その背景としてやはり「音声」を使ってサービスを操作するユーザー数が近年大幅に増加している事実があげられます。
KPCBのパートナーであるメアリー・ミーカー氏が出している資料を見てもスマホ上での音声アシスタント利用は2013年の30%から2015年には65%に到達していると言います(左のグラフ)。
このようにスマホを経由してたくさんの声が各プラットフォームに流れており、それらは認識技術の精度向上のためのインプットとして活用されています。そして以下のスライドにもある通り、スタンフォード大AI研究所の元所長で現在Baiduのチーフサイエンティストアンドリュー・ング氏は、2020年には音声か画像による検索が少なくとも50%の割合で行われているだろうと述べています。
そして、「音声認識精度が95%から99%に向上すると、全ての人が音声認識技術を常に使うようになるだろう」とも。2016年10月段階の単語誤認率は5.9%であることからも、それがすぐ遠い将来の話ではないことがわかります。
このように今後、音声を使ったインプットはより一般的なものになっていくと予想されます。実際にティーンエイジャーにとってボイス入力は当たり前のものになっているという流れもあります。
平成10年生まれ「何で平成一桁生まれの人たちって、がんばってフリック入力でTwitterしてるんですか?音声入力使わない理由ってなんですか?」
— けんすう(一般男性) (@kensuu) 2016年4月23日
人間が1分間に入力できるワード数は40であるのに対し、話せるワード数は150に上るわけで、Alexaのような常時インプットを受け付けているデバイスが増えれば増えるほど声によるインプット方法は必然のものになっていくでしょう。
3.応答時間の短縮とスクリーンをなくしたことによる情緒的な価値
音声アシスタントがここまで求められるようになった3つめの理由として、個人的にはこの部分がとても大きいと思っています。
ご存知の方も多いかもしれませんが、以下のような「Alexa」の開発エピソードがあります。
“開発当初、Echoのパーソナルアシスタント「Alexa」がユーザーの声を聞き取りクラウドから的確な解答を得てユーザーに応答するまでにかかっていた平均待ち時間は2.5秒から3秒。そこで、開発チームは応答時間の目標値を2秒と設定しましたが、ベゾスCEOは「多大な痛みなしに何かを得ることはない。君たち開発チームへの先行投資として苦痛を与えよう。目標応答時間は『1秒』だ」として、高速なレスポンスを命題として課したそうです。
それまで数十年にわたって音声コントロール技術に取り組んできた企業でさえ3秒の待機時間が必要で、それをようやくクリアできたばかりのEcho開発チームはみな言葉を失ったとのこと。”
ジェフ・ベゾスの強烈さが伝わるやりとりですよね…(笑)。結果的に競合他社の応答速度をはるかに上回る数字を実現できたそうですがこのスピードからくるストレスは多くの方が感じているところかと思います(ちなみに先日AmazonEchoを使ってみたのですが1秒以上かかっているような…汗)。
初めて実機触った🙌🏻 感動!笑 #alexa #googleassistant pic.twitter.com/G0rAntNYqz
— shinichiro kinjo (@illshin) 2017年1月12日
またもう一つのAlexaがもたらしたブレイクスルーがスクリーンがないということです。
なぜ私たちがSiriに対してストレスを持つかというと、自分が話した言葉をわざわざ文字に起こして表示させるからだと思っています。自分の発した言葉がテキストとして表示された際、そこに少しでも相違があると、人は「わかってねーな」と感じストレスを持ってしまうのです。
しかし、それがAlexaであればわざわざ復唱などせず、すぐさま応答を行ないます。そこでの内容が間違っていたとしても、違うこうだよ、と自然と訂正できたり、また多少の間違いでもその応答の筋が大まかに通っていれば多くの人は意に介しません。
なぜなら「音声は時間軸」、「視覚は空間軸」で情報を捉えるようにできており、脳の違う部分を使ってその物事を判断しているのです。時間軸で情報を捉える音声であれば、多少の文脈の違いでもそのまま納得(自己解決)をしてテンポよくコミュニケーションを進めていけるわけです。
ビジュアル、つまり空間軸で捉えるテキストは理性に訴える表現なわけで完璧さを求められますが、流れで捉える音声は感情に訴える表現であるため、言ってしまえば「ノリ」でなんとかなってしまうわけで、人は前後の繋がりからなんとなくストーリーを読み取るのです。動画や音楽、新聞や本、それらの情報の捉え方をイメージすればわかりやすいでしょう。
そういった意味で、Alexaの最も面白いところはこのように360度の音が聞き取れる円筒形として、画面を捨てたところにあると思っています。
このようにIoT化の流れとAlexaの普及、そしてCESによって多くのサードパーティとの連携が浮き彫りになり、突如として音声コントロールが2017年のテクノロジートレンドにおいて注目を浴びることになりました。それでは一体、音声によって具体的にどのような価値がもたらされるのか、Alexaを活用したサービス事例をみながらその可能性を考えていましょう。
Alexaではどんなスキルが人気なのか?
2014年11月にAmazonEhoと共に登場した音声アシスタントAlexaが、米国でどれほど受け入れられているか改めてご紹介します。
・NPD Groupの調査によるとこれまで1600万台が販売されている(2016年9月時点)
・2016年のホリデーシーズンにAmazonで最も売れた商品
・Amazonのカスタマーレビューは5万件ついており、星は4.5となっている
・Alexa経由の決済は2020年に70億ドルに到達する見込み
・Echoの出荷台数予想は2020年までに1億1300万台
・Alexaが提供できる機能(スキル)の数は7,000以上(2016年末)
などとてもポジティブな数字が並びますが、具体的にどのようなことがAlexaを通じてできるようになるのでしょうか。
(Alexaを通じて提供する機能をスキルと呼び、企業側が自社プロダクトと連携を行う場合はAVS(Alexa Voice Service)と呼ばれるクラウドサービスを利用することとなります。)
Amazonでの買い物、検索、Uberを呼ぶ、ニュースをチェック、音楽を聞くなどはすぐにイメージできますがどのようなスキルがよく使われているのか。Alexa Skill Store(非公式)を参考に注目のスキルをご紹介したいと思います。
1.Automatic
車の場所、ガソリンの残量、運転した距離など愛車のさまざまな情報をAlexa経由で確認できるスキルです。専用の端末を車に設置し、Alexaとリンクさせることで利用が可能になるといいます。車と会話するための注目のデバイスとスキルと言えるでしょう。
2.Word Master
こちらは単語ゲームですね。Alexaがスペルを一つづ言うので、そのスペルを言い終わるまでに、スペルを並び替えるなどしてなんという単語をAlexaは言わんとしているかを当てるゲームです。
シンプルなゲームですが、家族と競い合ったりするととても盛り上がりそうですよね。Alexa Skills Storeでは最もレビュー数の高いスキルとなっています。
3.Harmony
Logitech社が提供しているスマートリモコンHarmonyを声で操作できるスキルです。TV周りの操作を一括で行うことができるリモコンで、オンオフはもちろん、音量調整、チャンネル変更タイマー設定、Netflix、Xbox、AppleTVの起動などTV周りへの指示をこのスキル一つでまとめて行うことができます。
4.Jeopardy
ジェパディ!というアメリカで定番となっているクイズ番組で、この番組を模したスキルが人気を博しているそうです。エンターテイメントのアプリの一つですね。決して上品なクイズアプリではなく、番組同様の砕けたノリでや会話ができ、まるで自分がその番組の参加者になっているような感覚でクイズを楽しめるそうです。
5.Campbell’s Kitchen
料理レシピを教えてくれる、主婦に重宝されること間違いないのスキルです。面白いのがAlexaに対して冷蔵庫にある食材を伝えればそれを利用したレシピ詳細をEメールで教えてくれるという声とメールのハイブリッドな機能を提供しているということです。
音声だけでのレシピ案内だと、分量など覚えておくのが大変ですからね。こうやって声の情報をもとに動的に情報をまとめて、別のフォーマット上で表示する両面からのアプローチは今後ますます増えていくことでしょう。
以上、5つのスキルを紹介しましたが、他にも人気なのは睡眠に最適な環境音などのBGMを流してくれるスキル、Nestに代表されるような空調やライトを調整してくれるスキル、クイズゲームなどの暇つぶしができるスキルというように、ざっとみると音楽、スマートホーム、そしてエンターテイメントという3軸が人気ランキングの上位にあるようです。
KikやTelegramなどメッセージングアプリのボットストアやLINEのりんなやパン田一郎の人気ぶりをみても、会話サービスにおいてエンターテイメント系の切り口は手堅いもであることがわかります。
さまざまな家電や車と繋がり、製品と操作(会話)ができるIoTを文脈としたサービスが往々にして注目されがちですが、実際に時間を多く使ってもらえるのはスマホと同様、夢中になって遊べるゲーム系のアプリだと言えるでしょう
またAutomaticやHarmonyのように他のガジェットと連携してそれを声で操作できるようにしたり、Jeopardyのように既にブランドがあるものを声で置き換えたり、Campbell’s Kitchenのように他のチャネルとのハイブリッドで価値を提供したりと、これから様々な可能性が考えられますね。
個人的には多くの情報を取得させるため、カメラと連携させた使い方など面白いのではないかと思いました。Alexaでも使えるNest傘下のDropcamなどと連動させ、人の声だけではなくアクションもコマンドとするなど、面白い仕組みがつくれそうですけどね。
ボイスサービスに囲まれた先にある、私たちのライフスタイル
プロダクト開発に本腰を入れはじめたGoogle

結論に向かう前に、人工知能開発で最も先を言っていると言われるGoogleの取り組みについて紹介しないわけにはいきません。
スクリーンを介せず、より直感的にデバイスを操作できるIoT時代の声という新たなインターフェイス。まさにAlexaがユーザーの一次受け皿となり、各種スキル(サービス)を呼び出すためのユニバーサル(汎用)ボットとなっているわけですが、その後を猛追するのがGoogleです。
Googleはテキストと音声どちらにも対応しているGoogle Assistantをリリースし、それをGoogleHomeというスピーカーに載せる形で各家庭への侵入を目論んでいます。
音声検索をフューチャーしたCMを作り続けているGoogleの動きをみても、これから来る音声入力というメインストリームを意識していることがみてとれます。
そしてGoogleはそのディープラーニングの技術を活かして、専門家よりも高精度な読唇術が可能になっているといいます。電車内でのスマホ利用の際など、近い将来声を出さずとも口パクで操作できるようになるかもしれません。
スマホのプラットフォーマーがAppleとGoogleに二分されているように、声をインターフェイスとしたIoTプラットフォームにおいてAmazonとGoogleにて二分されることが2017年1月の段階では予想されます。
そのエコシステムの構築においてGoogleはAmazonに大きく水をあけられている状況ですが、メール、カレンダー、検索、地図、写真などその保有している個人情報のアドバンテージを活かして大きな巻き返しを行ってくると思われます。
私たちは世の中と自然な「会話」をしはじめる
Googleだけではなく、AppleはSiri、MicrosoftはCortanaという音声アシスタントを開発しています。それぞれのプラットフォームがAlexaの例にならい、サードパーティへの浸透をこれから積極的に行っていくことは、私たちが「会話」を行うチャネルが急増していくことを意味します。
スマホや家の中心にいるパーソナルアシスタントはこれからよりオープンな存在となり、最適な場所(モノ)から私たちの生活をサポートするようになるでしょう。そもそもクラウドに存在しているものですから、それは必然的な流れともいえます。
例えば映画「アイアンマン」のAI執事を参考にして、マーク・ザッカーバーグも同名のアシスタントサービスを開発しています(それはまだスマホを介しての操作ですが)。
チャットボットに関しても、スマホの中のメッセージングアプリ内にとどまらず、あらゆるモノに偏在し、どこからでも話しかけくるようになります(スクリーンは必要としませんがスピーカーとマイクは必要になるかもしれませんし、もしかするとAirpodsやHere Oneのように耳に装着したウェアラブルデバイスを通じて話かけてくるかも!ゆくゆくはナノロボットを通じて脳に直接…)
テキストよりもよりユーザーの心理面に深く入り込める音声インターフェイス、IoT時代に向けてユーザーを全方位的に囲い込んでいくためにもこの流れは不可逆的といえるのではないでしょうか。その目の前にはコネクテッドホーム、自動車、ウェアラブルという大きな市場も存在します。
テクノロジーは人により近いものになるべくこれまで進化してきました。日本にはまだ訪れてすらいないAlexaを筆頭に、「声」がテクノロジーと私たちを繋ぐものとして存在感を増しています。まずは日本語という障壁をどのように超えてグローバルなプラットフォームを活用していくべきか、現実的ですが英語による会話プラットフォームの中で存在感を出していくためには、日本人には避けては通れない課題かもしれません。
オキナワアイオー株式会社:http://okinawa.io/
Twitter:https://twitter.com/illshin
Facebook:https://www.facebook.com/shin.kinjo