Appleは、将来のApple Vision Proで口の動きを判断し、唇の動きだけでコマンドやディクテーションを取得する方法を研究している。
これは、AirPods Proの既存の機能の拡張版です。この機能では、頭を振ることで通話をキャンセルしたり、うなずくことで通話に応答したりできます。つまり、話せない場所にいる場合は頭を振って、話したいけれど両手がふさがっている場合はうなずいて通話できるということです。
今回新たに公開された「ディクテーション構造を備えた電子デバイス」という特許出願では、実際に話すことができない場合でもディクテーションができるようにしたいと Apple は考えている。
「音声によるディクテーションは、ユーザーが公共の場や、慎重さ、プライバシー、静寂が求められるその他の環境にいる場合には特に不便です」と、Apple Vision Pro の将来の機能に関する同社の特許出願には記されている。
21ページにわたるAppleのガイドラインには、ヘッドセットを装着したまま静かに口を挟んで立っているだけでは友達があまりできないなどとはどこにも書かれていません。しかし、友達が大声で騒いでいる状況では、Appleは確かに正しい指摘をしています。
「同様に、環境によっては、背景ノイズがヘッドマウント型デバイスがユーザーからの音声入力を正確かつ確実に認識する能力を妨げる可能性があります」と報告書は続けている。「そのため、ユーザーがヘッドマウント型デバイスへの入力を容易に指示できるヘッドマウント型デバイスが求められています。」
この提案は、非常に多くの選択肢の組み合わせを網羅しています。その一つは、「ディスプレイフレームに搭載され、下向きに外部に向けられた視覚センサー」を「口の動きを検出するように構成する」というものです。
しかし、顔の振動または顔の変形の少なくとも一方を検出するように構成された「追加センサー」が搭載される可能性もあります。そして、これらのいずれか、または両方に加えて、Apple Vision Proは「視線に基づいて入力選択を検出するために、内側に向いたカメラ」も使用する可能性があります。
また、3 つのオプションでは冗長性が十分でない場合は、入力選択の確認を示す手のジェスチャーを検出する外向きカメラを含む、さらに別の「センサー」が必要になる可能性があります。
Apple Vision Proのパススルー機能は、人によっては不快感を与えるほどではないかもしれないので、つぶやくのもいいかもしれない。 — 画像クレジット: Apple
最後の部分は、装着者が何かを口述したい、あるいは口述をやめたいと伝えるために手信号を送ることができるというものです。これらのジェスチャーの間に口から発せられるものはすべて、口述として認識されます。
ヘッドセットが通常のディクテーションも認識するかどうかについては言及されていません。つまり、何らかの信号がなければ、ヘッドセットは小声でつぶやいているだけでも常にディクテーションを録音していることになります。
Appleは、Apple Vision Proにユーザーの発話パターンを認識させるトレーニング方法として、音声の使用について言及しています。「トレーニング機能には、音声録音(例えば、約40dBから約70dBの話し声の音声クリップ、約20dBから約50dBのささやき声の音声クリップなど)が含まれます。」
「[または]視覚データには、少なくとも部分的にユーザーの口を含む視野のさまざまな方向または角度が含まれる場合があります」と続きます。「(たとえば、ユーザーの口の完全な視野を含むユーザー向けデバイスからの横顔ビュー、ユーザーの口の部分的な視野を含む顎カメラからの下向きの角度のビューなど)。」
この特許出願は、多作なポール・X・ワン氏というたった一人の発明者によってなされたものです。彼がこれまでにAppleのために取得した数多くの特許や特許出願の中には、Apple Vision Pro用のゲームコントローラなどが含まれています。