Appleのエンジニアたちは、ストリートビューの風景を正確に描写するAIエージェントの詳細を発表しました。この研究が成功すれば、視覚障害のある人が事前に仮想空間で場所を探索するのに役立つツールとなる可能性があります。
視覚障害者は、デバイスや周囲の環境を操作するためのツールを既に利用しています。しかし、Appleは、視覚障害者が訪れる前にその場所の物理的な特徴を知ることが有益であると考えています。
月曜日にApple Machine Learning Researchから発表された論文では、マルチモーダルな大規模言語モデル駆動型AIエージェントであるSceneScoutについて解説されています。このエージェントの鍵となるのは、ストリートビュー画像を閲覧し、そこに映っているものを分析し、視聴者に説明できることです。
この論文は、アップルのリア・フィンドレイター氏とコール・グリーソン氏、およびコロンビア大学のガウラフ・ジェイン氏によって執筆された。
視覚障害のある人は、自分が遭遇することになる物理的な風景を事前に知らないため、なじみのない環境での一人旅をためらうことがある、と説明されています。
2018 年の Microsoft の Soundscape アプリなど、ローカル環境を記述できるツールは存在します。ただし、それらはすべて、事前にではなく、その場で機能するように設計されています。
現時点では、旅行前のアドバイスではランドマークやターンバイターン方式のナビゲーションといった詳細情報が提供されますが、視覚障碍者にとって景観に関する情報はあまり提供されていません。しかし、Apple Maps Look Aroundのようなストリートビュー形式の画像は、視覚障碍者には見逃されがちな、より多くの状況把握の手がかりを視覚障碍者に提供することがよくあります。
シーンスカウト
ここで、ストリートビュー画像を使用したアクセス可能なインタラクションを提供する AI エージェントとして SceneScout が登場します。
Scene Scoutには2つのモードがあり、ルートプレビューではルート上で観測可能な要素の詳細が表示されます。例えば、曲がり角にある木々など、より触覚的な要素をユーザーに知らせることができます。
SceneScoutからの出力例
2 番目のモードである「バーチャル エクスプロレーション」は、ストリート ビュー画像内での自由な移動を可能にし、仮想的に移動する要素をユーザーに説明すると説明されています。
ユーザー調査では、チームは、SceneScout が、既存の方法ではアクセスできない情報を発見する点で、視覚障害者にとって役立つと判断しました。
説明に関しては、72%の確率で大部分が正確であると判断され、95%の確率で安定した視覚要素を説明できます。しかしながら、時折見られる「微妙でもっともらしい誤り」により、視覚を使わずに説明を検証することは困難です。
システムの改善策として、テスト参加者は、SceneScoutが複数のセッションを通して適応するパーソナライズされた説明を提供できるようにすることを提案しました。例えば、システムがユーザーが聞きたい情報の種類を拾い上げるといったことが考えられます。
説明の視点を、車の上にあるカメラの視点から、歩行者が通常いる場所に移すことも、情報の改善に役立つ可能性があります。
システムを改善するもう一つの方法は、現場で実行できるものです。参加者は、ストリートビューの説明がリアルタイムで提供され、自分が歩いている場所と一致するようにしてほしいと述べました。
参加者によると、これは骨伝導ヘッドフォンや透過モードを通して動きながら視覚情報を提供するアプリケーションになる可能性があるとのことです。さらに、ユーザーはコンピュータービジョンのためにカメラを正しく向けるのではなく、デバイスに搭載されたジャイロスコープとコンパスを組み合わせて、環境の詳細を把握するための大まかな方向を指し示したいと考えるかもしれません。
将来の用途
特許出願と同様に、AIの新たな活用方法を詳述した論文は、それが将来の製品やサービスで利用可能になることを保証するものではありません。しかし、Appleがその技術の活用を検討している可能性を垣間見ることができます。
ストリートビューの画像は使用していないが、同様のアプローチで、噂されているいくつかの Apple 製品を活用することもできるだろう。
Appleは、カメラを内蔵したAirPodsと、独自のカメラを搭載したスマートグラス「Apple Glass」を開発していると考えられています。どちらの場合も、カメラはApple Intelligenceに世界の情報を提供し、ユーザーの質問に答えるのに役立つ可能性があります。
同様のシステムが、ユーザーに地域環境を説明するために使われることは、想像に難くありません。しかも、古くなる可能性のあるストリートビュー画像の代わりに、ライブデータを使って。