Apple、機械学習ジャーナルの最新アップデートで「Hey Siri」の音声認識について説明

ロジャー・フィンガスのプロフィール写真ロジャー・フィンガス

2018年4月16日（月）午後12時15分（東部夏時間）· 2分で読めます

アップルは月曜日に、機械学習ジャーナルの最新記事を公開し、iPhoneやiPadなどのデバイスの「Hey Siri」ウェイクワードのニュアンスをさらに詳しく説明した。

エントリーの主要コンセプトの一つは「話者認識」です。Appleデバイスは、主なユーザーが「Hey Siri」と話しかけたときにのみ起動するように設計されており、「偽装承認」と「誤拒否」の比率を最小限に抑えています。後者は、デバイスがコマンドに対して起動しない場合を指します。

AIアシスタントを設定する際に「Hey Siri」と何度も繰り返すように求められるのは、話者認識のためです。しかし、このアプローチの問題点は、人は通常、同じ周囲の雑音の中でこのフレーズを繰り返してしまうことです。そのため、Appleは実際の使用中に追加の録音を収集しますが、初期の学習を台無しにしないよう、初期段階では録音をあまり多く使用しないようにする必要があります。

Siriチームは、将来のSiriバージョンでは、ユーザーが明示的な「ウェイクワード」のトレーニングを省略し、最初から「Hey Siri」で話せるようになる可能性があると述べている。同チームは依然としてエコーやノイズの影響への対応に取り組んでおり、トレーニングデータに様々な効果を加えることで、ある程度の成功を収めているという。

AppleはSiriの改良に躍起になっていると見られており、その証拠として、Googleからジョン・ジャンナンドレア氏を機械学習とAI部門の責任者に引き抜いたことが挙げられます。Googleアシスタントは、Googleの総合的なリソースを活用して様々な質問を理解し、回答できるため、市場で最高のAIアシスタントと評されることが多いです。

Apple初のスマートスピーカーであるHomePodに対する主な批判は、Siriへの依存度の高さです。Siriは一般的にGoogleアシスタントやAmazon Alexaよりも下位に位置付けられています。これらのアシスタントの関連スピーカーが先行し、人気が高いことを考えると、これは深刻な問題です。例えば、Siriのサードパーティ製アプリのサポートは煩雑であったり、全くサポートされていない場合もありますが、Amazon Echoのような製品は最初から多くのオプションをサポートしています。

Apple の Machine Learning Journal は 2017 年 7 月に開始され、照合された画像を使用したニューラルネットのトレーニングについて議論する投稿が掲載されました。

このサイトは、研究者が発見したものを公開し、研究内容について学術界全体と議論できるようにするというAppleの約束の一環のようです。Appleの方針の抜本的な変更は、Appleの人工知能研究ディレクター、ラス・サラクディノフ氏によって発表されました。

Appleはこれまで、研究者が研究結果を共有することを妨げる同社の姿勢や、製品開発を妨げる同社の消費者プライバシーポリシーが研究者に問題を引き起こしてきたため、人工知能分野のトップクラスの人材を採用するのが困難だと感じてきた。

Siri以外にも、Appleは人工知能（AI）と機械学習の新たな分野に進出しているようだ。2016年8月のインタビューで、AppleのCEOティム・クック氏はAIをAppleの将来の中核技術の一つと位置付けており、ジャンナンドレア氏の採用はクック氏のAI技術ビジョンの実現に不可欠であるようだ。