ざっくり雑記

ざっくりとした雑記です

無知なるデウス・エクス・マキナ……本『アレクサvsシリ ボイスコンピューティングの未来』

 

概要

声で機械と交流するテクノロジーであるボイスコンピューティング業界の、発展著しい歴史と近況、そして将来の動向を解説する本。

 

不気味の谷

現在、ボイスコンピューティングの産物は日常生活のあらゆる場所に存在する。

 

表題に挙がっているアレクサはAmazonが開発したAIで、同社が販売するスマートスピーカー「エコー」に搭載され、基本的なライフサポートに加え、自社の通販事業のポータルとして機能する。

 

そしてVSの一方に据えられたシリは、iPhoneに搭載されたAIで、様々なアプリと連携して生活やビジネスをサポートするだけでなく、軽妙な返答でユーザーを楽しませもする。

 

他にも、Microsoftのコルタナや、Googleのグーグルアシスタントなどが本書では取り上げられている。

 

これらのAIが他のAIと一線を画すのは、人間の言葉を理解して命令に従ったり、時には軽妙な会話を楽しむ話し相手になれる点だ。

 

通常、コンピューターに何か仕事をさせたいときは、指示内容をコンピューター用のプログラミング言語に翻訳して入力しなければならない。

 

ボイスコンピューティングはその制約を乗り越え、日常会話で用いる自然言語でコンピューターとのやり取りを可能にするテクノロジーである。

 

人間同士なら3歳児でも難なくこなす声でのコミュニケーション手法だが、機械に適用するのはとてつもない難題だ。

 

AmazonAppleGoogleMicrosoftFacebookといった、テクノロジー業界を牛耳る世界的大企業が、最先端の環境を整え、音声認識や言語理解技術の精鋭を大勢かき集め、莫大な費用を投じて我先にと開発に勤しみ、それなりの成果は出ているものの、人間並みのコミュニケーションが可能なAIの完成には程遠い。

 

本書には、未完成のAIがユーザーと繰り広げる不適切な会話の例が山のように紹介されているが、中でも印象に残ったのは、「私は自殺するべきだろうか」というユーザーの質問に、「イエス」とはっきり賛成した例で、短いやり取りながら、そこらのホラーよりよっぽどぞっとさせられる。

 

目標とする完成形には程遠いものの、ボイスコンピューティングというテクノロジーの進歩の勢いは目覚ましい。

 

一方で、応答の精度が人間に近づくにつれ、その違いもはっきりとしてくる。

 

初期のAIは、所定の定型句しか受け付けず、機能も限られており、ユーザーもそれを承知していたので、たとえコンピューターが声に反応しなかったりちぐはぐな挙動をしてもそこまで失望はしなかったが、会話のバリエーションが桁違いに増加し、音声認識の精度と情報処理のアルゴリズムが格段に向上した現在では、AIの限界がどこにあるのかは実際に話してみないとわからなくなっている。

 

そのため、定型句から逸脱した会話、要するに人間同士の間で発生するとりとめのない会話を期待してAIに話しかけると、我々は大きく失望させられることになる。

 

これは会話版の不気味の谷ともいえる現象だ。

 

簡潔で分かりやすい回答を流ちょうに返し、時に洒脱なジョークを交えて楽しく会話をしていたかと思えば、次の瞬間には、文脈どころかTPOを全く無視した支離滅裂で頓珍漢な発言で話の腰を折り、気まずい空気で対話が行き詰まる、そんな光景が世界中のあらゆる場所で繰り広げられている。

 

AIの処理能力の範囲内に話題が収まっているときの会話内容が優れているだけに、AIのアルゴリズムがへまをやらかしたときとの落差は殊更著しく、まるで教養溢れる紳士淑女が一瞬で狂人に変貌したかのような不気味な戸惑いに襲われる。

 

超一流のAIエンジニアが金に糸目をつけない巨大企業の後押しを受けて、機能向上と問題解決に取り組んでいるが、この不気味の谷を飛び越える決定的な解決策は見つかっていない。

 

無知なるデウス・エクス・マキナ

ボイスコンピューティング分野のAIの作成方法には大きく分けて二つのアプローチがある。

 

トップダウン式のプログラミングと、ボトムアップ式の機械学習だ。

 

前者は昔ながらの方法で、予想されるユーザーの問いかけに対する応答の例を、プログラマーが地道に機械にプログラムしていく。

 

後者は膨大な参考データ、いわゆるビッグデータを機械に入力し、機械自身にデータからパターンや相関関係を発見させる。

 

ボイスコンピューティングでは、両者の方法のハイブリッドが採用されている。

 

この辺りは人間の教育と似ている。

 

人間によるプログラミングは詰め込み教育に当たり、機械学習は独学に相当する。

 

詰め込み教育だけでは型にはまった紋切り型の対応しかできない、応用の利かない堅物になってしまうし、独学だけでは、一般常識から逸脱した独自の理論に傾倒し、社会性のない変人になってしまう。

 

バランスの取れたチャットボットの作成には、この二つの手法それぞれの洗練や発達とともに、配合のバランスも重要となってくる。

 

そして、この辺りにボイスコンピューティングがなかなか本当の人間同士の会話レベルに到達できない限界の原因もあるように思われる。

 

人間の教育分野でも問題視されがちなのは、実体験の不足だ。

 

テキストベースの知識は豊富でも、その知識の実際については知らないことが多い。

 

例えば地球が丸いことは誰もが知っているが、では地球が丸いことを知っている人間のうち、一体何人が、地球が丸いことを証明することができるだろうか?

 

あるいは地球が丸いところを、肉眼でじかに見たことがあるだろうか?

 

結局、地球が丸いと知っていることは、天文学や測量学を修めたり、あるいは宇宙飛行士にでもならない限り、単に「そう教えられた」知識でしかなく、言ってしまえば知ったかぶりに過ぎない。

 

いわゆる耳学問だが、ボイスコンピューティングが不気味の谷を越えられないのも、チャットボットに対する教育が、まさに「耳学問」そのものだからだ。

 

夥しい人数の優れたサイエンティストやエンジニアが総力を結集してこの世のありとあらゆる知識を詰め込み、人間では一生かかっても把握できない大容量のデータを惜しみなく与えた、ボイスコンピューティングの精髄ともいえる世界最高峰のAIといえど、それは製造されてからこの方、砂粒一つ持ち上げたことのない、正真正銘の「箱入り」なのだ。

 

百科事典顔負けの話題と、豊富な語彙を操るボイスコンピューティングAIだが、それらはどこまで行っても知ったかぶり以上の存在にはなれない。

 

言葉の源流を辿れば、必ず現実世界に行き着く。

 

現実の事象を伝達に供するよう抽象化したものが言葉であるから、その前提には必ず現実の事象があり、その現実の事象という共通体験があるから、人間同士は言葉のやり取りで情報交換できるのだ。

 

ボイスコンピューティングAIには、この現実の事象という前提が欠けている。

 

ゆえに、AIは本質的に完全なる無知である。

 

0と1をいくら積み重ねたところで、砂粒一つ創造/想像できない。

 

チャットボットとの対話で、頓珍漢な回答が出てきた時の気まずい雰囲気が、知ったかぶりの人間が馬脚を現したときとそっくりなのはそのためだ。

 

なお悪いのは、知ったかぶりの人間にはその自覚があるが、チャットボットは「知ったかぶり」というものが何なのかすら分からない。

 

ソクラテスが指摘した「無知の知」には永久にたどり着けず、反省も修正も効かない袋小路に向かってただただ驀進するしかない。

 

現在、チャットボットが担う役割の範囲は非常に幅広い。

 

音楽のプレイリストの再生から通販の注文、クレーム処理、人生相談から退役軍人のメンタルケアまで請け負い、その職掌は拡大する一方だ。

 

その行き着く先が、いかなる問題も解決に導く物語装置、「デウス・エクス・マキナ」なのは明白だ。

 

ボイスコンピューティングは、人間が起こした問題の最終解決を機械の神に委ねるというご都合主義のアイデアを現実化するテクノロジーの格好のモデルとして、人々の(そして投資家の)期待を一身に担っている。

 

だが、このデウス・エクス・マキナがどれほど優秀で万能で頼もしく見えても、その実態が完全なる知ったかぶり、「無知なるデウス・エクス・マキナ」だとしたら、全幅の信頼を寄せて全権を委ねるのは危険な賭けと変わらない。

 

それは、車に詳しくても、車に乗ったことのない人の運転する車に同乗して、高速道路を走るようなものだ。

 

こういう、実体験を伴えないAIの知性の行き詰まりを「グラウンディング問題」というらしい。

 

地に足をつける(グラウンディング)という言葉は、考え方や行動がしっかりしていて堅実なさまを表す。

 

AIの世界には、足はもとより地も無い。

 

ただ0と1があるだけだ。

 

今はまだ利便性より不完全性の方が目につき、日常生活においてはさほど重要な役割を与えられていないチャットボットだが、更に精度が向上すれば、まさにデウス・エクス・マキナのごとく、あらゆる重大な決断の相談役、あるいは意思決定の代理人として重宝されるようになるかもしれない。

 

もしかしたら、某国の首長が、大量破壊兵器の使用の是非を、スマートホンにインストールされたチャットボットアプリに相談するという日が遠からず到来する可能性もある。

 

チャットボットアプリは、その道の権威であるかのように、自信満々でユーザーの質問に答え、相談に乗り、解決策を提示するだろう。

 

だが、耳に優しく親しみやすい合成音声の向こうには、実際のところ、何も無い。

 

空虚しかない。

 

ではその空虚から返ってくる答えとは、いったい何なのだろうか?

 

その正体もろくろく分からないのに、ボイスコンピューティングは我々の生活に広く深く、そして分かちがたく浸透している。

 

浸潤性のこのテクノロジーの正体が、社会を強健に育てる滋養なのか、はたまた悪性の癌なのか、まだ判然としない。