Appleは音声認識の強化に位置情報を活用する

Appleは音声認識の強化に位置情報を活用する

Siri仮想アシスタントがiPhone 5sと5cによって世界中で大量の新規ユーザーを獲得する見込みであることから、Appleは地理位置情報とローカライズされた言語モデルを通じて正確な音声認識の改善を目指している。

AppleのiOSデバイスはすでに、Siriや音声入力など、多数の音声認識入力機能を備えているが、世界中で利用できることで、一部の地域の方言や言語を正確に表現できるかどうかが問題となっている。

この状況を改善するため、Appleは位置情報と言語モデルを統合し、様々な言語をより適切に理解できるハイブリッドシステムの開発を目指しています。この手法は、米国特許商標庁が木曜日に公開した「位置情報に基づく言語モデルを用いた自動入力信号認識」と題する特許出願で概説されています。

Appleは、希望するサービスエリア向けに複数のローカル言語モデルを構築することを提案しています。こうしたシステムの一例は、Siriの言語選択機能で既に利用されており、ユーザーは英語(米国)や英語(英国)など、様々なモデルから選択できます。

しかし、この方法は逆効果を招き、システムの認識をさらに複雑にする可能性があります。Appleは次のように説明しています。

つまり、言語モデルはローカルな単語列をより重視するため、特定の地域に固有でない入力信号は、ローカルな単語列として誤って認識される可能性があります。さらに、このようなソリューションは1つの地理的地域のみを考慮するため、場所が地理的地域の境界に近く、入力信号が隣接する地理的地域で固有の単語列に対応する場合、不正確な結果が生成される可能性があります。

Appleの新たな発明は、地域言語モデルを場所と音声入力に応じて重み付けし、他のローカライズモデルまたはグローバルモデルと統合することでハイブリッド化します。グローバルモデルは、一般的な言語特性と、ネイティブスピーカーが一般的に使用する確率の高い単語列を捉えます。

いくつかの実施形態では、まず、サービス所在地の閾値によって規定される地理情報に基づいてローカル言語モデルが特定されます。この最初のモデルは、言語のグローバルバージョンと統合され、指定された地域で統計的に出現確率が高い入力単語またはフレーズと比較されます。

情報データを用いることで、世界的に出現確率は低いものの、特定の場所では出現確率が高くなる可能性のある単語列を抽出できます。この文書では、「goat hill」という単語を例として挙げています。入力された単語が世界的に話される確率が低い場合、システムは話者が「good will」と言っていると判断する可能性があります。しかし、地理位置情報が統合されている場合、近くの店舗の名前が「Goat Hill」であると認識され、システムはその入力をより可能性の高い単語列として判断する可能性があります。

言語

位置データは、GPS、携帯電話基地局の三角測量、その他の類似の方法で収集できます。また、ユーザーが対応デバイスに手動で位置情報を入力することもできます。言語アセットには、データベース、認識モジュール、ローカル言語モデルセレクター、ハイブリッド言語モデルビルダー、認識エンジンが含まれます。

位置データとローカル言語モデルを組み合わせる際には、「重心」、つまり特定の地域における事前定義された中心点が関係します。いわゆる重心の例としては、住所、建物、市役所、さらには都市の地理的な中心などが挙げられます。重心の周囲の閾値が重なる場合、「タイブレーカーポリシー」を適用することで、一方のローカル言語モデルを他方よりも高い重み付けにすることで、ハイブリッド言語モデルを作成できます。

言語
重なり合う領域と重心の図。

Appleが将来このシステムをiOS製品ラインに採用するかどうかは不明ですが、現在の技術ではそのような方法の実装は可能です。携帯電話のデータはデータベース作成に活用でき、搭載センサーとプロセッサは位置情報の収集、言語認識と分析、ハイブリッドモデルの出力を処理できます。

Appleの位置情報に基づく音声認識の特許申請は2012年に初めて提出され、Hong M. Chen氏が発明者として認められている。