AppleはSiriエンジニアをさらに採用し、API、機能、言語の進化に取り組む

AppleはSiriエンジニアをさらに採用し、API、機能、言語の進化に取り組む

Appleは「iOSソフトウェアエンジニア」の求人を少なくとも2件掲載しており、Siri音声アシスタントのユーザーインターフェースとアプリケーションプログラミングインターフェースの開発に関する業務が記載されており、この新機能の開発が継続されていることを示しています。さらに3件の求人では、Siriの他言語への移植に関する業務が挙げられており、読者の指摘によると、Appleは既にネイティブスピーカーの音声サンプルを収集しているようです。

Siriを募集中

ある求人広告には、「SiriのUIを実装するチームに加わるエンジニアを募集しています」と書かれている。

会話ビューとその様々なアクションの実装が主な担当となります。これには、ダイアログを直感的に操作できるシステムの定義が含まれます。これは、動的で複雑なシステムにおける多くの微妙なUI動作に関わる作業です。コードのクライアントが複数存在するため、明確なAPIを構築し、サポートする能力が求められます。

2つ目の求人広告では、「これは幅広い業務です。Siriが連携するあらゆるアプリケーションを取り上げ、その基礎部分を抽出し、Siriに合うテーマでアプリケーションのUIを実装します。OSの中に小さなOS全体を組み込んだものと考えれば、その業務の範囲がお分かりいただけると思います。」と詳しく説明されています。

Appleはまた、「iPhone向けのAppleの新しいパーソナルアシスタント技術であるSiriやその他のクラウドベースのサービスに新しい言語を導入する」という任務を負う「言語技術エンジニア」のポジションも3つ募集している。

彼らがそれに対して反対する前

AppleのSiriグループは既に「Apple最大規模のソフトウェアチームの一つ」と評されており、一連の新ポジションは、プロジェクトの範囲と重要性の両面で拡大の一途を辿っていることを示しています。AppleはSiriをiPhone 4S独自の戦略的機能としてだけでなく、求人情報によるとMacを含む他の製品にも応用できる可能性のあるクラウドサービスとしても構築しています。

当初、グーグルのAndroidとマイクロソフトのWindows Phoneのトップマネージャーから「それほど便利ではない」と嘲笑されたが(グーグルのアンディ・ルービン氏は「携帯電話がアシスタントになるべきだとは思わない」と主張した)、その後、グーグルとマイクロソフトの主力開発者は、音声技術の点では自分たちがアップルのSiriよりも優れていると示唆した。

iPhone 4Sの発売以前は、両プラットフォームとも、少なくともOS統合型の音声認識サポートという点では、実際には先行していました。iPhone 4Sを除くiOSデバイス全体では、Appleは依然として後れを取っており、基本的な音声コマンドのみを提供しており、サードパーティ製アプリ以外では音声文字変換をサポートしていません。しかし、SiriはGoogleやMicrosoftが展開していた領域をはるかに先取りした新境地を開き、Appleはこの新技術を活用して、最新のiPhone 4Sを史上最速の売上を誇るスマートフォンにしています。

Siriのための小さな一歩

機能的な音声ベースのサービスを構築するには、最先端の認識アルゴリズムを入手するだけでは不十分です。Siriは「ベータ版」でリリースされました。これはAppleとしては異例のことですが、音声認識を向上させるには、Siriを広く利用させ、与えられたタスクから学習させる必要があるからです。

IBM で約 6 年間音声認識の分野で働いてきた Benoit Maison 氏は、本日のブログ記事で、音声認識が広く使用されている間に音声認識を改善するのは「単に簡単になるだけでなく、それが唯一の方法だ」と述べています。

「私たちはDARPAが後援する研究プロジェクト、フィールド試験、そして様々な用途の実際の製品開発に参加しました。ディクテーション、コールセンター、自動車、さらには聴覚障害者向けの教室アシスタントなどです」とメゾン氏は記している。「基本的な要求は常に同じでした。もっとデータが欲しい!(この場合、データとは音声録音の書き起こしです)」

同氏はさらに、「一部の研究者は、近年の音声認識精度の向上は、アルゴリズムの改善ではなく、より多くの質の高いデータによるものだと主張している」と付け加えた。Siriを実際のユーザーからの実際の音声リクエストに応答させることで、AppleはSiriをさらに改良するために活用できる貴重な情報を集めている。

2ページ中2ページ目: 結果を改善するための意見収集、最初のものは無料ではありません

結果を改善するための意見収集

Googleは2007年に電話ベースのGOOG-411サービスを開始し、無料で自動音声による電話番号案内を提供しました。このサービスを通じて十分なデータを収集した後、Googleは昨年サービスを終了しました。Nuanceも同様に無料の音声ディクテーションアプリを提供しており、音声サンプルの取得が可能です。しかし、MicrosoftはWindows Phoneにおいて不利な立場にあります。ユーザーベースが非常に小さく、市場での支持も得られていないため、サービス向上に活用できる実世界のサンプルの量と範囲が限られているからです。

GoogleはAndroidに音声操作機能を追加したが、AppleのSiriは、iOSデバイスのマルチタッチスクリーンを補完する全く新しい自然な音声インターフェースを提供するという意図を示しているだけでなく、検索エンジンとしてのGoogleの仲介者としての地位を脅かすものでもある。ユーザーがモバイルタスクをアプリ経由で実行し、Siriは音声経由で実行している現状では、Googleが従来のウェブ検索結果ページを通じて検索順位を販売する機会はほとんど残されていない。これは同社が最大の収益源である。

さらに、GoogleはAndroid版Siriを模倣するためには、Androidにおける有料検索ビジネスモデルを放棄する以外に方法がありません。また、iOSアプリ向けの唯一のパブリックAPIはサンドボックス化されており、他のサービスと緊密に連携できないため、独自のSiriをiOSに深く統合することもできません。そのため、AppleはGoogleやMicrosoftのような単なるライセンスプラットフォームベンダーではなく、ハードウェアメーカーとしてSiriを提供することで競争上の優位性を得ています。

最初のものは無料ではない

AppleがiOS 5でSiriをリリースする数か月前、デンマークの読者Jonathan Truelsen氏がAppleInsiderに、アメリカ人の小さなチームが母国語で一般的な口頭コマンドを録音する成人のネイティブスピーカーを募集し、2.5時間の録音セッションの報酬を得ていると報告した。

Facebook イベントで「音声プロジェクト」として宣伝されたこのグループは、Apple がスポンサーになっているとは宣伝されていなかったが、プロジェクトに関わっていたある人物は、同社がセッションを実施しており、その録音が iOS 5 に組み込まれる可能性があることを認めた。録音は、Bluetooth ヘッドセットを使用して 2 台の iPhone 3G で行われたと報じられている。

記録されたコマンドには、フライト状況の確認、インターネットへの接続、信号強度の確認、Bluetoothのオン/オフ、地元の企業、レストラン、パブ、カフェの検索、科学的な質問や歴史に関する質問、電話番号や連絡先への発信、連絡先や電話番号へのSMS送信などが含まれていました。「時には自分でテキストメッセージを作成しなければならなかった」とトゥルーエルセン氏は述べました。

Appleは、ローンチ言語向けに十分な有料サンプルを収集した後、ドイツ語、フランス語、英語に加え、アメリカ英語、イギリス英語、オーストラリア英語のアクセントに対応したバージョンも用意し、Siriを市場に投入しました。AppleはSiriが理解できる言語を拡大する計画(既にサンプル提供料を支払っていると思われるデンマーク語などの言語を含む)に加え、Siriが情報を検索できる外部サービスの範囲など、コア機能の拡張にも取り組んでいます。

Appleは既に、Siriと連携する外部アプリ(「友達を探す」など)を少なくとも1つリリースしています。ただし、このアプリはiOS 5にバンドルされておらず、iPhone 4Sにも搭載されていません。これは、同社が将来的にSiriを他のサードパーティにも開放する計画があることを示唆しています。しかし、そのためにはユーザーインターフェースの統合が必要になります。Appleは既に、メモ、カレンダー、連絡先、マップなどの関連サービスをSiriの応答ページに直接表示するSiri統合画面やアニメーションを追加しています。

同時に、AppleはiPhone 4Sユーザーの反応を利用してSiri自体の精度向上にも取り組んでいます。Siri用のサーバー容量を増強する中で、Appleは他のiOSデバイスやデスクトップMacプラットフォームにもSiriのサービスを拡大していく可能性が高いと思われます。一部のアナリストが推測しているように、Apple TVの音声アシスタントとしてリビングルームにSiriを導入する可能性もあるでしょう。

「もし音声認識機能搭載のApple TVの噂が本当なら」とメゾン氏は付け加えた。「Siriはすぐに別の課題に直面することになるだろう。例えば、遠距離からの音声認識は、近距離のマイクを使った音声認識よりも難しいことで有名だ。iPhone 4Sで先行して対応した方がよいだろう。」