Apple の Machine Learning Journal によると、Siri が中小企業や地元の名所の名前を認識する方法が改善されたのは、特定の場所向けに設計された言語モデルの使用によるもので、仮想アシスタントが近くの場所のローカル名を理解するのに役立っているという。
Siri音声認識チームによると、Siriのようなバーチャルアシスタントは、スーパーマーケットやレストランチェーンといった有名企業やチェーン店の名前を簡単に理解できるものの、あまり知られていない企業や地方の企業に関する質問では、結果の精度が低くなる傾向があるという。自動音声認識システム(ASR)においては、これが精度の「既知のパフォーマンスボトルネック」であり、頻度分布のロングテールに位置する企業は正しく認識される可能性が低いとチームは指摘している。
Appleは、Siriのクエリにユーザーの位置情報を組み込むことで、この点を改善しようと試みました。また、2種類のモデルが使用され、一般言語モデル(LM)と位置情報ベースの言語モデル(Geo-LM)が連携して機能し、後者はユーザーがSiriのサービスエリア内にいる場合に、より有用になります。
ASRシステムは通常、音声特性を分析する音響モデルと、単語の使用法を分析する言語モデルの2つの要素で構成されています。Appleは、このシステムが地域内の興味のある場所の単語や名称、およびその発音を適切に表現しておらず、あまり知られていない名称やその組み合わせもLMトレーニングデータで非常に低い頻度でしか出現していないと指摘しました。
頻度が低いということは、一般的な LM では、他の場所、単語、またはフレーズに比べて、ローカルビジネス名が取り上げられる可能性が低いことを意味します。
Appleのソリューションでは、米国の大部分をカバーする複数の地理的地域を定義し、各地域ごとにGeo-LMを作成しました。これらのローカルバージョンはユーザーの所在地に応じて使用されますが、ユーザーが定義されたすべての地域外にいる場合、または位置情報サービスが無効になっている場合は、代わりに一般的なLMが使用されます。
米国には、米国国勢調査局が定義する統合統計地域に基づき、169のGeo-LMエリアがあり、人口の約80%をカバーしています。各エリアは、通勤パターンに基づいて測定された「経済的および社会的に結びついた隣接する大都市圏」で構成されています。
Appleのテストでは、一般的なクエリの精度に実質的な変化は見られませんでしたが、興味のある場所(POI)に基づく検索では、一般的なLMとGeo-LMの使用率を比較すると、相対的に18.7%の誤差削減が見られました。米国8都市圏におけるPOIテストでは、一般的なLMとGeo-LMの相対的な誤差削減率が向上し、ローカライズ版は41.9%から48.4%の優れたパフォーマンスを示しました。
Appleは、システム速度への影響が限定的であるため、Geo-LMの地域対応範囲にはまだ改善の余地があるものの、汎用言語モデルは今後も維持されると示唆している。「地域別言語モデルに加えて、グローバルなGeo-LMを継続的に提供することが不可欠です。これにより、ASRは遠距離からの問い合わせや、サポート対象地域外のユーザーからの問い合わせにも対応できるようになります」とAppleは述べている。
このプログラムは米国英語以外の言語にも国際的に拡大される可能性があり、Apple は「ここで提案されている方法とシステムは言語に依存しません」と述べています。
Appleは、バーチャルアシスタントの精度においてGoogleに追いつくにはまだ道のりが長い。7月に行われたグループテストでは、Siriの精度は過去1年間で78.5%と大幅に向上し、質問の理解度もほぼ100%にまで向上したことが明らかになった。しかし、同じテストでGoogleアシスタントの精度は85.5%にとどまった。