Appleは、デジタルアシスタントにユーザーのIDを認識させ、さらにクエリをユーザーの音声のみに制限することで、Siriが特定のユーザーに話しかける際にパーソナライズされた結果を提供できるようにする方法を検討している。
米国特許商標庁が火曜日に付与した「音声入力処理のためのユーザープロファイリング」に関する特許は、音声認識技術がユーザーの発話からユーザーを識別し、既存の登録済みユーザープロファイルを利用する仕組みを詳述している。認識は様々な方法で実行可能であり、特許では生体情報として「声紋」が考えられると示唆されている。
このプロファイルは、そのユーザーだけが実行できる項目を含むタスクをデジタル アシスタントが実行するのに役立ちます。
例えば、ユーザーは新着メッセージの読み上げをリクエストできますが、割り当てられたユーザープロファイルにより、メッセージはユーザー自身が受信したもののみに制限され、他のユーザーには読み上げられません。これは、ユーザーが撮影した写真や動画など、デバイスに保存されている他のコンテンツにも適用されます。
特許によると、ユーザーがアシスタントを使い続けると、音声認識システムが使用された単語や言語スタイルを記録し、特定のユーザー向けのライブラリを構築することが示唆されています。これには、コンテンツのメタデータに対応する単語や、ユーザーが使用する可能性のあるアプリケーションに対応する単語が含まれる可能性があります。
システムは、最もよく使用するアプリや頻繁に使用する連絡先など、デバイスの過去の使用状況を分析し、ライブラリの構築を支援することもできます。これらの要素には重み付けが与えられ、他のユーザーによる一般的なクエリよりも、ライブラリを使用するリクエストで関連語が認識される可能性が高くなります。
音声による質問でユーザーの声を認識できれば精度向上につながる一方で、このシステムはSiriの既存のユーザビリティ上の問題をいくつか解決できる可能性を秘めています。現在、Siriは複数ユーザーに対応していないため、他者による誤用の可能性が生じています。また、英国議会での最近の演説のように、誤入力も避けられません。
Appleは毎週、米国特許商標庁(USPTO)に多数の特許出願を行い、その多くが認可されています。公開された特許の存在は、記載されたアイデアが必ずしも商品化されることを保証するものではありません。
とはいえ、HomePod向けSiriのマルチユーザーサポートの魅力と、ハードウェアの変更を必要とせずソフトウェアベースのコンセプトであるという事実を考えると、実現の可能性は高いと言えるでしょう。マルチユーザーサポートはiOS 11.2.5ベータ版でも確認されたと報じられており、コード文字列から、複数の音声を認識し、それぞれに合わせた結果を提供するための基盤は整っているものの、完全には実装されていないことが示唆されています。
また、Apple がデジタル アシスタントに関してこの考え方を、若干異なる形ですでに実践しているとも言えるでしょう。
木曜日、Appleの機械学習ジャーナルは、米国で地理位置情報に基づく言語モデル(Geo-LM)が開発されたことで、Siriの検索結果がどのように改善されたかを紹介しました。Geo-LMはユーザーの位置情報を考慮し、ローカライズされたトレーニングを実施することで、全国規模の一般言語モデルと比較して、地元の店舗や興味のある場所をより正確に認識できるようになりました。