iPhone ユーザー同士の通話では、各ユーザーが聞く音声の品質を向上させる自動オーディオ フィルタリングの恩恵を受けることができる。このシステムは、一方のユーザーがもう一方のユーザーの話を聞き取るのに困難を感じていることを認識した場合にのみ有効になる。
電話はこれまで、接続品質から主に外的要因に至るまで、通話の聞き取りにくさを引き起こす様々な問題を抱えてきました。騒がしい環境や声が小さすぎる場合、相手に聞こえない可能性があり、繰り返しをお願いすることになるかもしれません。
オーディオを改善するオーディオ処理テクノロジーは新しい概念ではなく、ブラインド ソース分離、ピックアップ ビームフォーミング、スペクトル シェーピング、音響エコー キャンセルなどのオーディオ処理アルゴリズムをノイズ低減と組み合わせて使用することで、ある程度は電話の通話に応用できます。
とはいえ、これらのアルゴリズムを常に動作させておくことは必ずしも望ましいことではありません。通常は特定の状況でのみ有効にすればよいからです。また、音声処理によって通話に望ましくない影響を与え、音声をさらに歪ませる可能性もあります。
米国特許商標庁が木曜日に公開した特許出願書類の中で、Apple の「遠端の音声強調処理に対する近端のユーザーによる透過的な制御」と題された書類は、通話中の 1 台のスマートフォンが、他のスマートフォンで拾った音声に対して特定の音声強調タスクを実行するようにトリガーする方法を示唆している。
受信者のスマートフォンは、そのユーザーの会話の中で、音声処理の支援を必要とするトリガーフレーズを検知します。トリガーフレーズが検出されると、通話中のもう一方のスマートフォンに信号が送信され、会話の残りの部分に必要な処理が実行されます。
トリガーは、「Hey Siri、聞こえているノイズを小さくしてもらえますか?」など、ユーザーの仮想アシスタントへの明示的なリクエストで構成できます。
タイトルの「トランスペアレント」という部分は、ユーザーの発話を継続的に監視し、「聞こえない」「もう一度言っていただけますか」「あなたのいるところは風がかなり強いですね」「何ですか」など、相手の声が聞き取りにくいことを示す発話を探すことを意味します。どちらの場合も直接的な命令ではありませんが、システムは各発話の存在を修正が必要な問題として判断し、信号を送信します。
さらに、発話やトリガーフレーズは、それぞれ異なる処理技術が関連付けられたデータベースと比較されます。使用される単語に応じて、遠く離れたスマートフォンに異なるコマンドを送信し、音声を処理できます。
近くのデバイスのシステムは、遠くの電話機から受信したメッセージに基づいて処理要求を行うこともできます。例えば、回線の片側に複数の話者がいるというアラートなどです。これにより、ブラインドソースセパレーション(BSS)をオンにするための自動応答がトリガーされる可能性があります。
意思決定プロセッサは、データベースやその他の手段を介してどのような処理を使用するかを決定するシステムであり、一般的なオーディオ環境を聞いて、通話に影響を与える可能性のあるその他の影響を判断し、必要なフィルタリングを自動的に適用することもできます。
Apple は毎週のように多数の特許を USPTO に申請しているが、そのようなシステムが将来の製品やサービスで利用可能になるという保証はないものの、同社の研究開発活動にとって興味深い分野についてアドバイスしている。
提案されたシステムはある程度期待できるものの、モバイル業界全体で普及するには困難が伴うだろう。理想的には、すべてのモバイルデバイスベンダーがこのシステムを採用することが必須となるだろう。そうでなければ、同じメーカーのデバイスでしか動作しない。一方、ライバル企業は自社デバイスの音声処理の制御を他社のスマートフォンに委ねることに必ずしも乗り気ではないだろう。
また、デバイス間で信号を通過させるために、電話ネットワークが通話の処理方法を変更する必要もあります。
Appleは既にFaceTimeという形で、このようなシステムを導入できる通信ネットワークを持っていると言えるでしょう。これは既にApple独自のシステムであるため、接続されたハードウェアのほとんどをAppleが既に広範囲に制御しており、処理信号の送信と実行は比較的容易です。