SiriはHomePodのように部屋のマッピングを行うことで精度を向上させる可能性がある

SiriはHomePodのように部屋のマッピングを行うことで精度を向上させる可能性がある

Apple とカーネギーメロン大学の新たな研究では、スマートデバイスが周囲の状況を学習し、いつどこで話しかけられているかを把握することで要求をよりよく理解する方法について詳しく調べています。

Appleとカーネギーメロン大学ヒューマンコンピュータインタラクション研究所の研究者らは、SiriやHomePodなどのデバイスが周囲の音を聞き取ることで、どのように機能が向上するかを説明した研究論文を発表しました。多くのAppleデバイスは周囲の音を聞き取る機能を備えていますが、「Hey Siri」という呼びかけだけを待機しており、それ以外の音声は無視されます。

Alexa も同様で、少なくとも理論上はそうなのだが、研究者たちは、周囲の環境の詳細や人々がそこで何をしているのかを判断するために、スマート デバイスが積極的に聞き取ることを提唱している。

「Listen Learner は、ユーザーの負担を最小限に抑えながら、展開された環境に固有のイベントを徐々に学習するアクティビティ認識技術です」と、彼らの論文には記されている。

現在、HomePodは周囲の環境や空間に合わせて音声出力を自動調整する。また、Appleは、将来のHomePodが部屋にいる人の位置に基づいて音声をその人に向ける特許を申請している。

この論文の研究の背景にあるアイデアは、類似のセンサーが音を聞き取り、その発生源を検知できるというものです。そして、それらをグループ化することで、例えば電子レンジのビープ音がどの方向から来ているかを認識できるようになります。人がどこに立っているか、どのような音がどの方向から聞こえているかといった状況を理解することで、Siriはリクエストをより正確に理解したり、情報を提供したりできるようになるかもしれません。

「例えば、システムは『あれはドアベルでしたか?』という確認の質問をし、ユーザーは『はい』と答えます」と説明は続く。「ラベルが確立されると、システムは同じイベントが再び発生するたびにプッシュ通知などのアクションを提供できるようになります。このインタラクションは物理領域とデジタル領域の両方を結び付け、例えば難聴のユーザーにとって価値のある体験を実現します。」

この論文ではHomePodについて繰り返し、そして特に言及していますが、実際にはマイクを搭載したあらゆるデバイスを対象としています。つまり、私たちが今や音声認識機能を持つデバイスをますます多く所有していることから、音声制御を改善するためのツールは既に存在している、というわけです。

論文に添付されたビデオでは、研究者らは、このような聞き取りによって精度がどのように向上するか、また、デバイスをトレーニングするこれまでの試みよりも成功率が高いことを実証している。

「音響活動認識のための自動クラス発見とワンショットインタラクション」と題された論文では、デバイスが「生の音声はデバイスにもクラウドにも保存されない」ものの、継続的に音声を聞き取れるようにすることを提案しています。デバイスはこれを継続的に実行し、特定の音に反応してラベルやタグを作成し、それが事実上、十分に聞き取れるまで続けます。

「最終的に、システムは出現したデータのクラスターがユニークな音であると確信し、その時点で、次に同じ音が発生した際に(ユーザーに)ラベルの入力を促します」と論文は説明しています。「システムは『今の音は何でしたか?』と尋ね、(ユーザーは)『あれは私の蛇口です』と答えます。時間が経つにつれて、システムはLisaにラベルの入力をインテリジェントに促し続け、認識されたイベントのライブラリを徐々に構築していきます。」

「あれは何の音だった?」といった一般的な質問だけでなく、推測してより具体的な質問をすることもできるかもしれない。「システムは『あれはブレンダーだったか?』と尋ねるかもしれない」と論文には記されている。「その場合、ユーザーは『いいえ、コーヒーメーカーでした』と答えるだろう」

論文は主に、このような質問をユーザーに投げかけるデバイスの有効性に焦点を当てていますが、研究者たちは具体的なユースケースも試したと説明しています。「私たちは、家庭内でのアクセシビリティを支援するために、Listen Learnerを活用して音響イベントにラベルを付けるスマートスピーカーアプリケーションを開発しました」と論文は述べています。

Appleや他の企業がこのアイデアをスマートスピーカーに組み込む兆候はまだありません。これは短期的な集中的なテストであり、チームはさらなる研究に向けた提言を行っています。

しかし、このテストは「一般的なアクティビティ認識の使用例に適した精度レベルを提供する」ものであり、「コンテキスト認識インタラクションのビジョンを現実に近づける」ものであると研究者らは結論付けているため、有望である。

iPhone、iPad、MacでAppleの最新ニュースを常にチェックしましょう。「Hey Siri、AppleInsider Dailyを再生して」と話しかけるか、このリンクをブックマークすれば、AppleInsiderチームからすぐに最新情報をお届けします。