Apple は、誰が話しているのかをより簡単に判別できるようにするために、音声を処理して「カクテル パーティー」効果を実現する方法を提案しているため、複数人での音声のみのグループ FaceTime 通話は将来的に扱いやすくなる可能性があります。
電話会議は、多くの人々と同時にアイデアを伝えることを容易にし、ビジネスに欠かせないツールとなっています。便利な一方で、参加者が多すぎることによる問題も生じます。
複数の人が通話に参加している場合、誰が話しているのかを特定するのが難しい場合があります。ビデオ通話では、現在話している人を特定するための視覚的な手がかりが得られますが、音声のみの通話ではそのような余裕はなく、ユーザーが声を認識する必要があります。
米国特許商標庁が木曜日に公開したアップルの特許出願「ヘッドフォンを使用したインテリジェント拡張音声会議通話」は、ステレオヘッドフォンとソフトウェアを使用して参加者を分離する方法を示唆している。
この問題を解決するため、Appleは多者間通話において、各発信者からのチャンネルを個別に分割することを提案しています。これらのチャンネルはシステムに送られ、リスナーの周囲の環境に適した音響特性を持つ仮想オーディオ環境、つまり「部屋」をシミュレートすることで、通話が実際の部屋で行われているかのように聞こえます。
Appleの特許出願では、ユーザーを基準として複数の発信者が「仮想ルーム」内に配置される様子が示されている。
リモート通話者は仮想ルーム内で互いに離れた位置に配置され、各参加者への音声フィードは、リモートユーザーの声が実際の部屋の異なる場所、例えば会議テーブルの周りなどから聞こえてくるように調整されます。ステレオヘッドフォンとヘッドトラッキングシステムを使用することで、各リモートユーザーが頭を動かしても相対的な位置関係を維持し、ユーザーの向きに合わせて音声特性を変化させることができます。
Appleは、空間レンダリングオーディオシステムを採用することで、リスナーの脳の「カクテルパーティーメカニズム」を利用して音源を分離していると主張しています。つまり、音声を特定の位置に配置することで、リスナーが電話会議をより簡単に追跡できるようになるのです。
このシステムはメタデータを用いて、同僚や会社、発言頻度、地理的位置など、参加者をインテリジェントにクラスタリングすることも示唆されています。各通話者の仮想的な方向と距離は、ユーザーの好みに応じてさらに制御可能で、例えば、あるプレゼンターが別のプレゼンターと交代して通話をリードするなど、通話中に参加者を「移動」させることも可能です。
オーディオフィードがどのように処理されるかを示すブロック図
Apple は毎週多数の特許を申請しており、USPTO による公開は同社にとって関心のある分野を示しているかもしれないが、記載されているコンセプトが将来の消費者向け製品に採用されることは保証されていない。
この場合、このアイデアが何らかの形で実現する可能性はかなり高いでしょう。仮想の「部屋」と音声の変更は、モバイルデバイスで実行し、ステレオヘッドホンを通して聞くことができます。ヘッドトラッキング機能付きのヘッドホンは存在しませんが、iPhoneのFaceTimeカメラを使ってユーザーの向きの変化を検知するなど、他の技術を活用することも可能です。
これは、Appleがオーディオとヘッドフォンに関連して取得した唯一の特許やアプリケーションではありません。10月と11月には、Appleは静電容量式近接センサーとマイクアレイを用いてヘッドフォンの装着状態を検出する方法を提案しました。
また、オーディオフィードがヘッドフォンではなくユーザーの周囲から来ているように聞こえるようにする「空間ヘッドフォン透明性」、スピーカーとしても機能するデュアルモードヘッドフォン、健康モニタリングに使用できるヘッドウェアに関する出願もあります。