AppleのiPhone 4Sの内部:「S」はSiriの音声認識機能

AppleのiPhone 4Sの内部:「S」はSiriの音声認識機能

Apple は今週発売される iPhone 4S で音声制御を次のレベルに引き上げ、買収した Siri 技術を活用して、ユーザーが声に出して話すだけで複雑なタスクを実行できるようにする。

今週金曜日のiPhone 4S発売に先立ち、AppleInsiderでは次世代端末の機能の一部を詳しくご紹介します。端末名の「S」はAppleによって正式に定義されたことがないため、5つの可能性が考えられます。本日の「S」はSiri音声制御技術のことです。

Siri:歴史

SiriはもともとApp Storeで入手可能なiPhone向けの無料アプリケーションでした。この「パーソナルアシスタント」ソフトウェアは、ユーザーが自然な言葉で話しかけることで、映画のチケット購入などのタスクを実行できるようにします。

ハンズフリー機能に加え、同社は時間節約にも役立つと謳っていました。「インターネットで何かをするために、リンクやページを延々とクリックする必要はもうありません」と、同社の公式ウェブサイトには2010年に書かれていました。「Siriに仕事を任せ、Siriが代わりにやってくれる間、リラックスしてください。」

Siriソフトウェアに地元のイタリアンレストランを探すよう指示すると、Siriはインターネット上で複数の情報源を検索し、レビューや地図、メールで他の人と共有する機能などを提供します。また、OpenTableを使ってレストランの予約を取ることもできます。

この技術はApple社に大きな感銘を与え、同社は2010年4月にSiri社を買収した。それ以来、Apple社はiPhone 4Sに搭載されているオペレーティングシステムiOS 5にこの機能を統合する取り組みを進めてきた。

A5プロセッサのパワーを活用することで、SiriはiPhone 4Sでのみ動作します。また、OSに組み込まれているため、Siriはこれまで以上に多くの機能を提供します。ユーザーの連絡先やカレンダーと連携し、メールの作成やテキストメッセージの送信といった複雑なタスクも実行できるようになります。

仕組み

AppleはSiriを究極の音声認識ソリューションと位置づけ、2009年にiPhone 3GSで初めて導入された「音声コントロール」機能に完全に取って代わるものと位置付けている。しかし、前任者とは異なり、Siriではユーザーは人間に話しかけるようにiPhoneに話しかけることができる。

Siriの技術により、ユーザーはiPhone 4Sに自然な言葉で話しかけ、まるで会話をしているかのように話すことができます。例えば、「この辺りに美味しいハンバーガー店はありますか?」と尋ねると、近くのハンバーガー店のリストが表示されます。その後、「タコスはどうですか?」と尋ねると、Siriは前回のリクエストがレストランに関するものだったことを記憶します。

しかし、そこからSiriはApp Storeで提供されていた最初のバージョンよりもさらに進化しました。ユーザーは、選んだレストランで食事をする計画を友人にテキストメッセージで伝え、その予定をカレンダーの予定として設定できるようになりました。カレンダーに重複する予定がある場合は、Siriがユーザーに通知し、スケジュール変更を提案します。

「多くのデバイスは、ユーザーが話した言葉を認識できます」と、AppleのiOSソフトウェア担当上級副社長、スコット・フォーストール氏は公式プロモーションビデオで述べています。「しかし、ユーザーの意図を理解し、それに基づいて行動する能力こそがSiriの画期的な点です。スマートフォンの機能に対する考え方を根本から変えるものです。」

SiriはAppleが買収したA5プロセッサとSiriソフトウェアを搭載していますが、Appleはユーザーの音声認識を支援するために、Dragon NaturallySpeakingの開発元であるNuance Communicationsとも提携していると考えられています。しかし、AppleもNuanceも、SiriにNuanceの技術が搭載されていることを認めていません。

すでにiPhone 4Sを手にしたある人物が、Siri関連の設定など、その機能の一部を動画で披露しました。動画では、iPhoneのホームボタンを押し続けるか、iPhone 4Sを耳に当てて話しかけることでSiriを起動できることが示されています。「Raise to Speak」機能は設定でオン/オフを切り替えることができます。

Siriの「音声フィードバック」機能は、Siriがユーザーに音声で返答したり、確認したり、質問したりする機能で、iPhoneの設定から変更することもできます。動画では、音声フィードバックは「常に」に設定されています。

Siriの言語を変更することもできます。リリース時には、英語、ドイツ語、フランス語のサポートが組み込まれます。ソフトウェアはリリース時にはベータ版となり、今後、対応言語とサービスがさらに追加される予定です。

Siriは、ユーザーによる設定なしでiPhone 4S上ですぐに使えるようになるが、Appleの幹部は先週の基調講演で、このソフトウェアは個々の人の声を学習するにつれて「さらに良くなる」と約束した。

どのように使うのか

Siriに話しかけられることの包括的なリストが、先週TUAWによってまとめられました。それによると、SiriはiPhoneのアドレス帳、カレンダー、アラーム、メール、友達、地図、メッセージ、音楽、メモ、電話、リマインダー、株価、天気、ウェブ検索にアクセスできることが示されています。

これらのカテゴリでの潜在的な用途のほとんどは、説明するまでもなく明らかです。ユーザーは、電話をかけたり、カレンダーにイベントを追加したり、天気をチェックしたり、アラームを設定したり、電子メールやテキスト メッセージを作成したり、道順を検索したり、音楽を再生したりできます。

SiriはiOS 5の新機能「友達を探す」とも連携します。iCloudを活用することで、GPSや3GデータなどのiOSデバイスの機能を使って、友人や家族がお互いの居場所を簡単に確認できるようになります。例えば、「妹はどこにいる?」「妻は家にいる?」「ここにいるのは誰?」といったコマンドが考えられます。

Siriを使えば、インターネットで情報を探す際に使用する検索エンジンを指定することもできます。例えば、「1812年の戦争をGoogleで検索」「エイブラハム・リンカーンをWikipediaで検索」「アリシア・キーズをBingで検索」などです。

Siriは、ユーザーがどのような種類の検索を行いたいかを指定することもでき、「ニュースを検索」といったコマンドも理解します。為替レート、シカゴのガソリン価格、次の日食の日付といった動的な情報も、Wolfram Alphaを通じて取得できます。

先週発表されたiPhone 4Sのデモンストレーションで、フォーストール氏はSiriにクリスマスまであとどれくらいか尋ねた。するとソフトウェアは「82日」と答えた。

Siriは音声入力も可能で、画面にキーボードが表示されているときはマイクアイコンが表示されます。マイクをタップすると、入力ではなく音声で入力できます。

Siriの学習機能は音声でも利用できます。ユーザーはSiriにデータを音声入力することで、人間関係などの個人情報を学習できます。例えば、ユーザーはSiriに母親の名前を告げることで、「お母さんに電話して」といった指示を理解できるようになります。

Siriの使い方がわからない場合は、システム自体に質問することもできます。Siriに「何ができますか?」と尋ねるだけで、新しいiPhone 4Sの音声コマンドの全オプションを知ることができます。