AppleはiPhone上でローカルに音声処理できるSiriのオフラインモードを検討中

AppleはiPhone上でローカルに音声処理できるSiriのオフラインモードを検討中

Appleは、音声認識や必要なタスクの実行をバックエンドサーバーに依存せずにユーザーのデバイス上で完全に実行されるオフラインモードの可能性を含め、インターネットに接続していないときにもSiriがユーザーにとってより便利になることを望んでいる。

Siriの典型的な動作は、ユーザーの指示に従ってコマンドを聞き取り、匿名化された音声データをAppleのサーバーに送信し、まず音声をプレーンテキストに変換し、次にコマンドを解釈して結果をユーザーのiPhoneまたはiPadに送り返すというものです。音声認識のプロセスは負荷が高く、iPhoneのようなデバイスでは必ずしも実行できないため、デバイスからAppleのサーバーにオフロードされます。

Siriの場合、サーバーに依存しているため、何らかのインターネット接続がないとバーチャルアシスタントは利用できません。ただし、「Hey Siri」と話しかければ、オフラインメッセージを表示するためだけにサービスが起動します。木曜日に公開されたAppleの「オフラインパーソナルアシスタント」に関する特許出願書類によると、状況は将来的に変化する可能性があります。

申請書によると、音声テキスト変換と検証はAppleのサーバーに接続するのではなく、デバイス自体で行われる可能性がある。ユーザーのリクエストを聞くと、デバイスは内蔵の自然言語処理によってタスクを判別し、聞き取ったタスクが有用かどうかを判断して実行する。

Appleは、外部に接続せずにデジタルアシスタントのクエリを処理するための、オンボードのモジュールシステムの使用を提案しています。このモジュールコレクションには、音声合成、ダイアログ処理、デフォルトの語彙とユーザー作成データに基づく音声アルファベット変換、自然言語処理モジュールなどの要素が含まれています。

オフラインデジタルアシスタントは、認識された単語とクエリの構造に応じて、タスクフロー処理モジュールまたはサービス処理モジュールに保存されている複数の定義済みタスクを実行できます。これらの2つのストアには、タイマーの設定やデバイスに保存されている曲の再生など、よく要求されるタスクのモデルが含まれており、要求に応じて適切なタスクモデルが実行されます。

デジタルアシスタント内のモジュールを示すAppleの特許出願図

デジタルアシスタント内のモジュールを示すAppleの特許出願図

Appleは、申請書の中で、自然言語処理を含む特定のタスクを実行するために機械学習メカニズムを活用することを示唆しています。このようなシステムは文脈情報を理解できるため、インターネットにアクセスすることなく、デバイス内の限られたデータからユーザーが何を求めているかを判断するのに非常に役立ちます。

オフライン使用のためのデバイス上処理でも、接続が利用可能な場合は提案されたシステムはオンラインになることができ、利用可能な接続に応じて同じシステムが 2 つの異なる方法で動作することになります。

ローカル処理とリモート処理の両方にアクセスできれば、デジタルアシスタントはユーザーの発話に対して2通りの解釈方法を提供できます。この場合、システムはローカル処理された解釈とオンライン処理された解釈の有用性スコアを算出し、どちらの処理のスコアが高いかに基づいてタスクを実行します。

これにより、アシスタントは実質的にバックアップオプションを利用できるようになります。リクエストに対してローカルで実行された処理の結果が使用できない場合、サーバーベースの処理を代替解釈として利用できるようになります。サーバー版がタイムアウトしたり利用できなくなった場合でも、ローカル版は引き続きタスクに使用できます。

Apple 社は通常、毎週のように多数の特許を申請しており、ここで説明されているコンセプトは確かに Apple 社が関心を持っている分野を示唆するものの、こうしたシステムが同社の将来の製品に組み込まれることを保証するものではない。

オフラインSiriの場合、Appleがこの方向に進む可能性は十分にありそうです。近年のiPhoneでは、AシリーズプロセッサにNeural Engineが搭載されています。これは、Face ID認証や写真撮影関連機能といった計算負荷の高いタスクを実行することを目的としていますが、機械学習を利用するタスクにも使用できます。

2018 年にリリースされた iPhone で使用された第 2 世代のニューラル エンジンのパワーを考慮すると、オフライン Siri が利用可能なパワーと機械学習機能を活用してオフライン処理を実行することは十分に可能です。

AppleはSiriを改善する方法としてオフラインモードだけではありません。Siriをより良くするために、Appleは様々なコンセプトに取り組んできました。10月に取得した特許の中には、Siriが「声紋」によって特定のユーザーを認識する仕組みが説明されているものがあり、Appleはパーソナライズされた応答による複数ユーザーサポートの実現も検討しています。

Siriの認識機能に関しては、地域ごとの質問や言語の癖に対応する地理音声モデルなど、既にいくつかの改善が図られています。消費者にとってより目に見えるのは、iOS 12で導入されたSiriショートカットです。これにより、ユーザーは自分だけのSiriコマンドを作成できます。

iPhone、iPad、MacでAppleの最新ニュースを常にチェックしましょう。「Hey Siri、AppleInsider Dailyを再生して」と話しかけるか、このリンクをブックマークすれば、AppleInsiderチームからすぐに最新情報をお届けします。