ケイティ・マーサル
· 1分で読めます
この研究プロジェクトは、AT&T の WATSON 音声認識エンジンの新バージョン「Speech Mashups」をベースにしており、全機能を Web 上のサービスとして提供し、高速インターネット接続が可能な場所であればどこからでも利用できるようにしている。
Speech Mashups へのアクセスに使用するソフトウェアが特定の Web 標準、特に AJAX フレームワークと JavaScript に準拠している限り、このテクノロジによって音声コマンドをキャプチャし、リモート サーバーで解釈して、Web サイトやプログラムが理解できる言語でデバイスに送り返すことができます。専用のアプリやプラグインをインストールする必要はありません。
通信会社によれば、この技術は IP ベースの TV ボックスや BlackBerry、スマートフォンにも使用できるが、その焦点は iPhone に最も集中している。iPhone は (BlackBerry とは異なり) 独自のネイティブ音声認識機能を備えておらず、iPhone 2.0 ファームウェアがリリースされるまでは、独立したネイティブ アプリを通じてさえもこの機能がサポートされていなかった。
AT&Tは、イエローページ・ウェブサイトのモバイル版プロトタイプで、iPhoneユーザーが適切なタイミングで音声入力するだけで、ページ上のテキストフィールドに企業名と所在地を入力する様子を調査ビデオで紹介している。このような場合、キーボード入力も可能だが、AT&Tは、特に運転中は音声入力の方がより速く便利だと主張している。
このソリューションには限界があり、AT&Tのサーバーへの接続速度が十分でないiPhoneや、ウェブコードを含まないネイティブアプリケーションには対応していません。例えば、Apple独自のアプリケーションの多くは、この機能では動作しません。現状では、この技術は音声ダイヤルやその他の直接音声認識機能に対する頻繁な要望を満たすことができません。
それでも、開発の範囲は限定されており、AT&T の研究室にとどまっているものの、この開発により、Web アプリと一部のネイティブ iPhone アプリの両方が、Apple 自身もまだ自社のデバイスにプログラムしていない機能に対応できるようになる可能性がある。