「音声アシスト」という言葉を聞いたことがありますか?
これはいま、発達が進んでいる新しい技術です。
例えば、「音声入力」と言えばイメージしやすいと思います。パソコンのキーボードを打つのが苦手でも、自分の声(音声)を使って文字入力ができるようになると便利ですよね。
「音声アシスト」は、ここからさらに一歩進んだ技術です。「人間の言葉を理解して、音声で人をサポートしてくれる」のが音声アシストです。つまり、コンピュータとコミュニケーションすることが可能となります。
そしてそこからさらに発展したのが、IBMが提唱する「コグニティブ・コンピューティング」です。
「Cognitive」とは「経験的知識に基づく」「認知の」という意味で、「コグニティブ・コンピューティング」とは、コンピュータが自ら学習し、考え、瞬時に膨大な情報源から大量のデータを統合し分析することができるシステムだ。
http://www.jmca.jp/column/tu/tu29.html
まずはこの動画をご覧ください。
ここまで制度を高めるのはまだまだ先ですが、コグニティブ・コンピューティングのイメージはこのような感じです。
トップ企業が開発している音声アシスト
世界的にも有名な4つのIT企業は現在、こぞって音声アシストの開発に力をいれています。代表的な4社のサービスをまとめます。
IBM Watson
いま最も開発が進んでいると言われるのが、IBMのWatson(ワトソン)です。音声アシストというよりは、人工知能に近い設計となっており、『人の言葉を「理解」し、膨大なデータから最適な答えを「考え」、ベストな回答を「答える」』事ができます。
ただ音声を理解して情報を提供するのではなく、ワトソン自身がデータを元に学習する「考える力」を持っています。
理解の段階で言うとこんな感じ。
①音声入力ができる
人の言葉を性格に聞き取れる
↓
②質問を理解して答えを返せる
今日のスケジュールは?と聞いて、スケジュール帳から今日のスケジュールを読み上げてくれる
↓
③最適なスケジュールを提案してくれる(ワトソン)
今日のスケジュールは?と聞いて、スケジュールが空白でもベストな形のスケジュールを作って提案してくれる
通常、人は4つの手順を経て、物事の意思決定を下します。
- Observe(監視)
- Interpret(理解)
- Evaluate(評価)
- Decide(決定)
ワトソンもこの手順と同じ方法で思考を行い、意思決定を下します。
そして、ワトソンが答えを出すために必要とする情報は、インターネット上に存在するあらゆる情報です。Eメールやソーシャルメディアの投稿、そしてパーソナルデータなど。
IBMはこの技術を、将来的には医療、オンラインのヘルプデスク、コールセンターでの顧客サービスなどに活用できるとしている。
すでに三井住友銀行は、コールセンターの問い合わせ業務にワトソンを導入することを決定しています。
三井住友銀がワトソンに想定するのは銀行のことなら何でも知っている超ベテランのスーパー銀行員。将来は店舗の職員から事務処理などの質問に答えたり、法人営業が客先で投資相談に活用したりと構想は広がる。
最初は頼りない三井住友銀行のワトソンも、実践経験を積み上げ、新しい回答をどんどん記憶し、学習します。そしていつの間にか、「銀行のことなら何でも知っている超ベテラン」になるのです。
ワトソンの導入には数億円がかかるようですが、すでに三菱東京UFJ銀行とみずほ銀行も導入を進めています。仮にメガバンク3社が導入を決めれば、これからは銀行だけでなく多くの業種でサポートセンター業務のスタンダードになるでしょう。
その他、日本郵政もかんぽ生命保険の保険金支払い業務に、ワトソンを導入すると決めています。大手企業を中心に導入が広がってきています。
IBM Chef Watsonには、ワトソンが考案したレシピが多数掲載されています。これらの料理はすべて、ワトソンのオリジナルで、材料やレシピも載っています。
IBMはワトソンやコグニティブ・コンピューティングに関する動画をYoutubeにアップしまくってます。同社がこのプロジェクトに相当な期待を寄せていることがわかります。
Apple Siri
音声アシストの中で最も有名なアプリは「Siri」でしょう。Siriはアップル社が開発している音声アシスト機能で、iPhoneを持っている人なら誰でも使えます。
普通に会話相手としても楽しめますが、
- 時間や天気を聞く
- 今日の天気を読み上げてもらう
- 音楽を再生してもらう
- 誰かにメッセージを送る
など、実務的なこともできるようになっています。
また、iPhoneが電源コードに繋がっていれば「Hey! Siri」と呼びかけることで応答してくれます。私は眠れない時、たまにベッドから今の時間を聞いたりしています。
私も試しに撮影してみました。
iPhoneではあまり頻繁に使っている人を見かけなかったSiriですが、今後アップルウォッチなどで利用することを想定すると、より利用シーンが広がると思います。
また、音声アシストに受け答えしてもらうだけでなく、以前ご紹介した「Homekit」と結びつけるとより可能性は広がります。例えば「Siri、部屋の電気を切って」で部屋のライトOFF、「Siri、テレビを付けて」でテレビのスイッチが入るなど。
Amazon echo
実はアメリカでは、アマゾンも音声アシスト製品を発売しています。アップルのSiriや後述のコルタナはすべてソフトウェアですが、Amazon echoは筒状の置物です。
現在、Amazon echoができることは以下のとおり。
- 情報の提供
- 音楽の再生
- ニュースの読み上げ
- 天気情報の提供
- アラームのセット
など。
「Alexa」または「Amazon」と呼びかけると反応してくれます。
Amazon Echoには7つのセンサーが付いているため、音楽の再生中や、部屋の遠い位置から呼びかけても質問を正確に拾ってくれやすいです。
Amazon Echoは、常にインターネットと繋がっているので、自動的に機能追加のアップデートが受けられたり、本体に音楽を保存しなくても、クラウドからストリーミング再生をしてくれます。
そして、アップルのSiriと同じく、スマート家電と接続すれば、Amacon Echoに向かって「明かりを暗くして」とお願いするだけで、部屋の明かりを調整してくれます。
通常価格で199ドル、プライム会員なら149ドルで購入できます。
Microsoft Cortana
デモは2分ぐらいからスタート。
マイクロソフトが開発している音声アシストは、「Cortana(コルタナ)」という名前です。次期OSのWindows10に標準搭載される予定です。
他の音声アシストと同様に、スケジュールをチェックしたり、音楽を再生できます。
スマートフォン向けに提供されていた機能(ニュースや個人の予定、音声でのテキストメッセージ送受信など。いわゆるSiri や Google Now的なもの)に加えて、Windows 10では自然言語でのファイル検索やプレゼン操作などPCならでは機能が加わります。
http://japanese.engadget.com/2015/01/21/windows-10/
ファイルの検索やブラウザ操作ができるようになると、本格的に「パソコンは声で操作する時代」がやって来そうです。また、現在はプレゼンといえば片手にページをめくるスイッチを持っているケースが多いです。そしてスイッチが動作しなくて「あれ?」みたいなケースってプレゼンでよく見かけますよね。
しかし、これらのページめくりも音声アシストにやらせることができます。
マイクロソフトはスカイプを持っているため、音声データの吸い上げとかはやりやすそうです。個人的に、この世界は「いかに膨大な情報を素早く集められるか?」が勝負になると思っています。ちなみに、スカイプではすでにスカイプを介した「同時通訳機能」のテストがスタートしています。
Googleは、スマートフォンが登場した当初から音声検索アプリの提供を始めています。失敗を認めたGoogleグラスでも、基本操作は音声で行うように設計されており、音声認識の精度は非常に高いと感じます。
Googleが提供しているサービスの中でも、最もアシスト機能に近いのが「Google Now」です。「Google Now」はユーザーがその時ほしい情報を提供するのが主旨のアプリです。私たちの生活をサポートしてくれる点では「アシスト機能」と言えますが、Siriのように会話ができるわけではないので、音声を使って受け答えするような使い方はできません。Nowのような「提案型」のアプリがより強力になった時、Googleの戦略が見えてくるのかもしれません。
Googleの場合は、「OK, Google」と話しかけると反応してくれます。ただし、この機能を使うには事前に設定が必要です。他の人が「OK, Google」と言っても反応しないように、自分の声認証を最初に設定します。また、Android5.0以降の機能なので、現在Android4を使っている場合は、システムアップデートが必要です。
ということで、私もやってみました。
参照:OK Google Everywhereを日本語で有効にして任意の画面やロック画面などあらゆる画面から「OK Google」の音声コマンドを使う方法
日本でも音声アシストの開発は進んでいます
音声アシストの開発に力を入れているのは、海外のビッグプレイヤーだけではありません。日本でも音声アシストを開発している会社はたくさんあります。
上記の動画は株式会社イナゴが手がける「mia」というアプリです。この動画を見ていて思ったのですが、例えば運転中に音声でカーナビが操作できるようになると、すごく便利になりますよね。あとは料理中のレシピの手順とか、音声で教えてくれるとすごく助かります。
miaの特徴は「ゴール共有型技術」を使っていることです。ゴール共有型技術とは、最終的な検索結果(miaが出す答え)に行き着くために、検索で言う「絞り込み」を質問形式で行ってくれる技術です。
- 何が食べたいですか?
- 予算はいくら?
- 他に希望は?
と、絞り込み検索を音声で行うことで、自然な会話によって的確な答えが出せるようになっています。
参照:『Siri』よりすごい!?最先端の音声アシスタント技術は人々の生活をどう変えるのか―株式会社イナゴの挑戦
また、cocorobo(ココロボ)というしゃべるお掃除ロボットを開発したシャープも、同じ技術を使って音声アシストに力を入れています。シャープが手がけるのは「emopa(エモパー)」という名前。
シャープはこの技術を自社のスマートフォン「AQUOS Phone」に搭載する他、お掃除ロボットを始めとする家電製品にも搭載していく方針です。また、エモパーの最新動画「エモ動」第2段は来月6月4日に公開とのこと。
「しゃべる家電」が私たちの生活に入り込んでくるのももうすぐですね。
同様に、Yahoo!Japanは「Yahoo!音声アシスト」、NTTドコモは「しゃべってコンシェル」というアプリを提供しています。とくにNTTドコモは以前から「同時翻訳」の開発に力を入れています。
最新の決算説明会では、ドコモの社長が、「かなり高いハードルではあるが、2020年までに翻訳機能で「TOEIC800」クラスまで精度を高めたい(通過点として2017年度前後にTOEIC700点)」と言っていたことがすごく印象的でした。
音声アシストでコンピュータをもっと身近に
インターネットが普及して、ネットを活用したサービスがたくさん登場しました。例えば、ネット通販やネット銀行、ネットスーパーなんかもそうでしょう。そしてそれらによって、人々の生活はとても便利になりました。しかし、パソコンがどれだけ普及しても、それを扱えない人は必ず一定層存在します。
そして、スマートフォンが登場しました。これまでパソコンを使えない、パソコンに興味がなかった層でも、ごく当たり前に「スマホ」という小さなコンピュータに触れ、インターネットに接続するようになりました。しかし、スマホを使いこなせない人はたくさんいますし、それを使って高度なことができるのは、やはり一部の人たちだけです。
そしてこれから起こるのが、音声アシスト革命です。
自分の音声を使って、それも自然な形でコンピュータに話しかけるだけで、誰もが自由自在にコンピュータを使いこなすことができる。そして、コンピュータ自身が考えを持ち、あなただけのために作ったベストな「提案」をしてくれます。
テクノロジーが進化するほど、コンピュータは高度でわかりにくいものになっていくのではなく、より簡単で多くの人に扱いやすいものへと変わってきています。コンピュータの技術が発展するほど、「一部の人だけが使うもの」ではなく、誰もが自由自在に使えるツールとなるのです。
機械人間の仕事がなくなる?
最近は、工場などの肉体的な労働現場がロボットに置き換わり、人の仕事がなくなると言われています。しかし、ワトソンのように、コンピュータ自身が考え、知識を持つようになると、将来的に「テンプレート回答しかしない仕事」は必要なくなってしまうのでは?と思うかもしれません。
ただ、その問いに対する答えは半分正解で半分不正解です。前述のWatsonの開発に携わっているロブ・ハイ氏によると、
ハイ氏は「コンピュータに人間のやることをそのままやらせるのは本当に難しい」と前置きした上で、現在、コグニティブコンピューティングシステムとしてのWatsonがベースにしている、4つのパターンを挙げている。
エンゲージメント(engagement)のパターン
シンプルなQ&Aやダイアログの定型のパターンを覚え、お約束の質問にお約束の解答で答えていく。エデュケーショナルシステムなどに応用できる。基本的に聞かれた質問にはすべて答えなくてはいけない。探査(exporalation)のパターン
Watsonは情報を膨大に積み重ねた小さなデータセンターのような存在。この多すぎるデータの中から求める情報を迅速かつ最適な形で取り出し、フィンガーチップな状態(スマートフォンなどでも扱いやすい状態)で提供できるよう、Watsonの内部をリフォームし続ける。発見(discovery)のパターン
問いかけられた質問に答えるだけでなく、その質問からインスピレーションを得て、自ら質問を探していく。自分が見てきたもの、体験してきたものから、線をつなげていくように相関関係を導き出す。ライフサイエンスや創薬、犯罪捜査などへの応用が期待できる。決断(decision)のパターン
これまでしたことがないような決断をサポートする仕組み。経験とパーソナライズが重要になる。さまざまなシチュエーションに応じて決断を変えるため、責任範囲やパフォーマンスの許容度も指標に。動きの激しい金融取引でのリアルタイム処理などでの応用が期待できる。http://cloud.watch.impress.co.jp/docs/special/20150305_691312.html
- 人間のやることをそのままやらせるのはまだまだ先
- 「お約束の質問にお約束の解答で答える仕事」は近い将来なくなる
- これまで人が考えたこともないような決断を「提案」によりサポートする
単純すぎる仕事は、コグニティブ・コンピューティングの進化とともになくなるかもしれません。しかし、その分の時間をもっとクリエイティブなことに使えるようになることも事実。コンピュータはあくまでも「人間の思考のサポート役」になると思います。
例えば、何かについて考えて答えを出そうとする時、候補となる可能性が100個ぐらい存在するとします。コグニティブコンピュータはその中から、論理的思考力に基いて最適な答えをいくつか候補として提案してくれます。もちろんその中には、自分がまったく考えつかなかった答えも混じっているかもしれません。すぐに答えが出ない問題を、短時間で答えまで導いてくれるとしたら、それは非常にありがたい存在のように感じます。
そして、より進化したコンピュータに支えられることによって、これまで未解決だったガンやHIV、エボラ出血熱、または地震のような自然災害についても、根本的な解決策が見つかるかもしれません。このように、クラウドや音声アシスタンの登場によって、テクノロジーはより加速し、そして人々は加速したテクノロジーを使って、より世界経済を加速させていくのだと思います。
(書いた人:川原裕也)