AppleはSiriに唇の読み方を教えている

AppleはSiriに唇の読み方を教えている

将来の Apple デバイスでは、動き検出機能を使用して唇の動きを読み取り、マイクで常にコマンドを聞き取ることなく Siri を起動できるようになるかもしれません。

ある程度の年齢の人なら、Siriが何らかの形で唇の動きを読めるという話を聞くと、すぐにアーサー・C・クラークとスタンリー・キューブリックの『2001年宇宙の旅』を思い出し、不安に駆られたことでしょう。もしAppleが1968年のあの映画を彷彿とさせるのであれば、それはHAL9000というコンピューターが優れた音声認識能力を持っていたからだと期待したいところです。

それに比べると、Siriは音声コマンドを確実かつ一貫して理解するのがはるかに難しい。しかし公平を期すために言うと、Siriはまだ宇宙船の乗組員を殺そうとしたわけではない。Siriは揺れたりバランスを取ったりしているだけだ。

しかし、Siriに口や頭の動きを検知する機能などを追加すれば、精度が向上する可能性はあります。新たに公開された「モーションセンサーを用いたキーワード検出」という特許出願は、まさにそれを実現することを目指していますが、それ以上の何かを目指しています。

「[データ]は、例えば、ユーザーが音声入力を行う際のユーザーの動きを記録するモーションセンサーから受信されます」と特許出願には記載されています。「モーションデータの一部が、1つ以上の単語(例えば、単語またはフレーズ)の集合に関する参照データと一致するかどうかが判定されます。」

「さらに、音声センサーが周囲のノイズや意図しないユーザーの音声を拾ってしまうと、音声(のみ)制御システムでは誤検知が起こる可能性がある」とAppleは述べている。

この特許出願では、Siri やデバイスが一致を見つけようとする際に、口の動きを以前のデータと比較する方法が詳しく説明されている。

特許の詳細。動きの検出結果を過去のデータと比較し、誰が何を言っているのかを判断する方法を示している。

特許の詳細。動きの検出結果を過去のデータと比較し、誰が何を言っているのかを判断する方法を示している。

しかし、これはSiriの改良を目的としたものではなく、Appleがマイクを搭載しないデバイスを計画しているという兆候でもありません。Appleはむしろ、このようなモーション検知機能によって、デバイスが「Siri」や「Hey Siri」を常に聞き取るために使用しているマイクをオフにできるようになるかもしれないと提案しています。

「(継続的に)音声データを検出して処理すると、ユーザーが音声コントロールを積極的に使用していない場合でも、電力と処理能力が消費されます」とAppleは述べている。

「ユーザーが話すと、口、顔、頭、首が動き、振動します」と説明は続く。「加速度計やジャイロスコープなどのモーションセンサーは、マイクなどの音声センサーに比べて比較的少ない電力でこれらの動きを検知できます。」

動きを検知して過去の記録と比較する機能は、「Hey Siri」や「次のトラック」といった一般的なコマンドを発声している場合には明らかに機能しているようです。「Hey Siri、ポッドベイのドアを開けて」といったあまり一般的ではないコマンドを発声している場合は、動きの検知は機能しないはずです。

しかし、動きの検出が十分に高速であれば、ユーザーが「Siri」と言ったことを感知すると、デバイスはマイクをオンにして残りの音声をキャッチできるはずです。

Apple の特許出願では、加速度計とジャイロスコープに言及している以外、この提案を実装するために使用できるデバイスについてはあまり説明されていない。

ただし、これはカメラや視線ではなく、動きを検知して唇の動きを読み取るものです。そのため、特にiPhoneと組み合わせると、この動き検知は理論的にはAirPodsだけでなく、例えばApple Vision Proでも機能する可能性があります。

この特許出願は、マドゥ・チンタクンタ氏を含む2人の発明者によるものです。チンタクンタ氏は以前、AppleでSiriにユーザーに代わって自動的に予約や電話をかけさせる特許を出願していました。