アップルは木曜日に公開した特許出願の中で、インテリジェントな仮想アシスタント「Siri」をメッセージング環境に統合する方法を詳述している。これにより、ユーザーはAIとのテキストベースのやり取りに参加できるようになり、友人との従来のメッセージでの会話に自動化ツールやヘルパーツールが利用可能になる。
米国特許商標庁が公開したAppleの特許出願「メッセージング環境におけるインテリジェントな自動アシスタント」は、Siriとテキストメッセージング用に設計されたグラフィカルユーザーインターフェース(GUI)を連携させる手法を説明しています。重要なのは、この統合によりSiriが単一のユーザーと会話するだけでなく、グループチャットで第三者として機能することも可能になるという点です。
提案されたシステムは、音声認識に大きく依存する現在のSiri実装よりもはるかに先進的であるように思われます。本日発表された文書に詳述されているように、Siriとの統合により、ユーザーはメッセージアプリでサポートされているあらゆるコミュニケーション形式(現時点ではテキスト、音声、画像、動画など)を使って、バーチャルアシスタントに「話しかける」ことが可能になります。
現在、Siriは専用のSiri UIで、デバイスのマイクを介して音声コマンドを受け付けます。アシスタントは自然言語入力を高い精度で解析できますが、間違いが発生することもあります。その場合、ユーザーは確認テキストをタップまたは選択して正しい情報を入力することで、クエリを修正できます。また、現状のSiriは画像を処理する機能がありません。
特許出願に記載されているように、Siriをメッセージング環境に移行することで、全く新しいインタラクションが生まれます。例えば、図書館や映画館のように、音声によるインタラクションが望ましくない静かな場所や、騒がしい環境などでは、テキストベースのUIが適しています。
メッセージアプリをはじめとするメッセージングアプリは情報を時系列形式で表示するので、ユーザーは過去のSiriとのやり取りを従来のテキスト履歴として確認できるようになります。さらに、Siriはユーザーの質問に答える際に、利用可能なチャット履歴を参照し、文脈上の手がかりを得ることができます。現在、Siri UIはセッションが完了するとクエリスレッドを削除します。
既存の実装と同様に、コンテキスト情報は会話履歴を超えて活用できます。例えば、デバイスの位置情報を活用して、「ジャイアンツの成績はどうだった?」といった質問に答えることができます。生成されたタスクフローはまずユーザーの意図を検出します。この場合は、スポーツのスコアに関する問い合わせです。デバイスの位置情報、時間、チームのスケジュールに応じて、Siriはサンフランシスコ・ジャイアンツやニューヨーク・ジャイアンツのスコアを返すかもしれません。
後続のメッセージには、スポーツのスコアに関連するインターネット Web サイトへのリンクや、他のアプリへの内部リンクが含まれる場合があります。
興味深いことに、この文書では、メッセージベースのSiriの実現可能なユースケースシナリオとして、画像認識と動画認識について言及されています。特許出願では、ユーザーがクエリの一部としてSiriに「送信」する可能性のあるフォルクスワーゲン・ビートルの画像が挙げられています。ある例では、ユーザーがSiriに価格情報を収集するように指示すると、Siriは識別特性を用いて画像を分析、Webで現在の価格を検索し、テキスト形式で回答を返します。
画像関連のクエリの他の例としては、「これはどこにありますか?」「これは何の昆虫ですか?」「このロゴを使用している会社はどれですか?」などがあります。場合によっては、特定のクリップ内の音声を認識することで動画を処理できます。これは、音声クエリの解析で説明した方法と同じです。
画像認識と音声認識機能を有効にすると、Siriはユーザーの好みを「記憶」することもできます。例えば、ユーザーがワインボトルの写真を送信し、「このワインが好きです」と言えば、Siriは後で参照できるようにメモを残します。同様に、ユーザーは連絡先情報などのテキストブロックを入力して保存することができ、Siriはそれをファイルに保存して後で取り出すことができます。
おそらく最も興味深いのは、Siriが積極的な参加者として活躍する複数ユーザー間の会話でしょう。メッセージアプリで第三者を招待するように、Siriをチャットに招待することで、AIは両方の人間ユーザーにサービスを提供できます。例えば、最初のユーザーが近くの中華料理店について尋ねると、Siriは適切な店のリストで応答します。2人目のユーザーは、リストをより安い店に絞り込み、特定のレストランが決まったら、両方のユーザーのデバイスに保存するカレンダーエントリを作成します。
さらに、Siriは各人に今後の会議をリマインドしたり、交通手段を提案したりすることもできます。本日の資料で紹介されている例では、各Siriアシスタントは独自のアイデンティティを持っています。例えば、カレンダーの招待状をユーザーにリマインドする際、Siriは最初のユーザーに「午後7時の夕食をお忘れなく」というメッセージを送信し、2番目のユーザーには「ジョン・スミスのSiriが今夜午後7時の夕食をリマインドします」というメッセージを送信するかもしれません。
理論的には、Siri はメッセージ チャットにとって不可欠なサードパーティになる可能性があります。
AppleのSiriに関する計画は現時点では不明です。3月には、次世代OS「iOS 11」のメッセージアプリが何らかの形でSiriとの連携をサポートするという未確認の噂が浮上しましたが、情報筋の報道は憶測の域を出ませんでした。
最近の特許出願に基づくと思われるこの想定される機能は、Siriがメッセージアプリの会話を盗聴し、デバイス所有者に有用な情報を提供することを可能にする。例えば、ユーザーが友人と食事をする話をしているとき、Siriが突然現れ、近くのレストランを提案したり、予約を依頼したり、Uberの配車を手配したりといったことが可能になる。こうした機能は、本日提出された特許出願にも記載されている。
AIアシスタントをメッセージングツールに統合するのは前例のないことではありません。Googleは昨年、Googleアシスタントを統合したメッセージングアプリ「Allo」をリリースし、高度なチャットボットをアプリ内で利用できるようにしました。同様に、人気のビジネス向けメッセージングプラットフォーム「Slack」も、Slackbotと呼ばれる独自のチャットボット(ただし、それほど高度ではありません)を提供しており、よくある質問に回答したり、基本的なタスクを実行したりできます。
メッセージへのSiriの統合を詳述したAppleの特許出願は、2016年5月に初めて提出され、発明者としてPetr Karashchuk、Tomas A. Vega Galvez、およびThomas R. Gruberが名を連ねている。