アップルの特許は、高度な物体認識とPOIラベル付け機能を備えた拡張現実デバイスの詳細を明らかにしている。

アップルは火曜日、周囲の状況を検知し、生成した仮想情報をユーザーにリアルタイムで表示できるモバイル拡張現実システムを説明した2つの特許を取得した。

米国特許商標庁が公開したAppleの米国特許9,560,273号は、強化されたコンピュータービジョン機能を備えた拡張現実（AR）デバイスのハードウェアフレームワークを規定しており、米国特許9,558,581号は、特定の環境に仮想情報を重ね合わせる具体的な方法を詳述しています。これらのハードウェアとソフトウェアのソリューションを組み合わせることで、AppleのARへの野望を垣間見ることができるかもしれません。

両特許はもともと、ドイツのAR専門企業Metaioが、2015年にAppleが同社を買収する直前に出願したもので、その後、米国特許商標庁（USPTO）で特許出願され、昨年11月にAppleに譲渡された。

「少なくとも1台のカメラを備えたウェアラブル情報システム」に関する特許273号は、1台以上のカメラ、画面、ユーザーインターフェース、そしてコンピュータビジョン専用の内部コンポーネントを備えたデバイスを想定しています。本AR発明の理想的なプラットフォームとしてヘッドマウントディスプレイが挙げられていますが、出願書類ではスマートフォンも適切な代替手段となり得ることが示唆されています。

この出願の本質は、ARデータオーバーレイの可視化よりも、電力効率の高い物体認識に重点を置いている点です。物体認識機能は、ARの普及を阻む最大の技術的障壁となっていると言えるでしょう。特に、顔認識セキュリティシステムに採用されているような既存の画像マッチングソリューションは、消費電力が非常に大きいため、実社会での利用は限られています。

ウェアラブルARシステムのイラスト。

しかし、Appleの特許は単なるデバイス制御にとどまらず、ユーザーの環境を電力効率よく監視し、検出された物体に関する情報を提供する方法を詳細に規定しています。例えば、この技術はガイドツアーアプリの一部として利用され、来館者が美術館内を歩き回っている際に、興味深い物体をスキャンして情報を提供するといったことが考えられます。

モバイルデバイスに適した電力仕様を実現するため、本発明は、動作時間の大部分においてデフォルトの低電力スキャンモードを維持する。高電力モードは、例えばARコンテンツのダウンロードと表示時、または新しいコンピュータビジョンモデルをシステムメモリに保存する場合など、短時間バースト的に起動される。

このドキュメントでは、光学トラッキングの初期化、つまりカメラの位置と向きの初期決定について詳しく説明します。ARの不可欠な要素である初期化は、この技術において克服するのが最も難しいハードルの一つと考えられています。

Appleによると、このプロセスは特徴検出（特徴抽出）、特徴記述、特徴マッチングという3つの主要な構成要素に分けられるとのことです。Appleは、既存のビジュアルコンピューティング手法に頼るのではなく、専用のハードウェアと事前学習データを用いた最適化された新しい手法を提案しています。

いくつかの実施形態では、特徴認識およびマッチングプロセス全体を管理する集積回路が必要となる。さらに、このプロセスを支援するために、強度画像、つまり環境からの反射光量の異なる画像、深度画像、あるいはその両方が利用される。

ユーザーデバイスで撮影された画像は、オンボードまたはオフサイトのデータベース内の記述子と相互参照され、データベース自体は常に更新されます。位置検出コンポーネント、オンボードモーションセンサー、その他のハードウェアを活用することで、物体の特定範囲をさらに絞り込むことができます。

興味深いことに、この発明では、物体の判別精度を向上させる深度画像を取得するには、2台のカメラが必要となることが指摘されています。偶然にも、Appleは昨年、iPhone 7 Plusで2台のカメラを搭載した設計を発表しました。

Appleは最新のフラッグシップiPhoneに、ポートレートモードという奥行き検出機能を搭載しました。これは、複雑なコンピュータービジョンアルゴリズムと深度マッピングを用いて、一連の画像レイヤーを作成する機能です。このカメラモードでは、被写体を含む特定のレイヤーを自動的にシャープにし、その他のレイヤーはカスタムぼかし技術を用いて部分的にぼかします。

本日の特許の更なる実施形態では、物体認識、記述、マッチング手順について詳細に説明されており、また、前述のツアーガイドアシスタントのような潜在的な用途についても説明されている。その他のユースケースとしては、屋内ナビゲーションアセットが挙げられる。

Appleの'581特許「現実環境における仮想情報の表現方法」もMetaioの研究所で開発され、AR環境における関心点のラベル付け手法を明らかにしています。より具体的には、この知的財産は、仮想情報を現実世界の物体に重ね合わせる際に、遮蔽知覚を考慮しています。

例えば、透明なディスプレイ（または背面カメラからのライブ映像を映し出すスマートフォン画面）でAR市街地マップを閲覧しているユーザーは、近くの建物やランドマークに関する情報が表示されます。従来のARシステムでは、ラベル、画像、音声などのメディアをPOIに直接オーバーレイするため、POIが視界から隠されてしまうことがあります。

Apple は、コンピュータービジョンシステムの欠点を補うために、現在の AR ソリューションでは一般的に見られないジオメトリモデル、深度検知、測位データなどの高度なテクノロジの使用を提案しています。

2Dおよび3Dモデルを適用することで、これらのシステムはユーザーの視点とPOIからの距離を考慮できるようになり、デジタルコンテンツの適切な視覚化に役立ちます。重要なのは、このプロセスによって、視点と仮想情報ボックスまたはアセット間の光線を計算できることです。これらの光線は、POIの「外壁」と「内壁」に関連付けられた境界によって制限されます。

Appleの特許は、ユーザーの周囲の環境の深度マップを作成するために2台のカメラシステムを利用しています。'581特許では、この深度マップを用いて、仮想データを重ね合わせるための幾何学モデルを生成します。

Appleが本日発表された特許のいずれかを市販の消費者向け製品に組み込む計画があるかどうかは不明ですが、同社が何らかのARシステムのリリースに向けて動いていることを示唆する証拠が積み重なっています。多くの既存および過去の特許が、仮想データの生成と表示に深度検知技術を利用していることから、デュアルセンサーを搭載したiPhone 7 Plusカメラは、AppleのARパズルの鍵となる可能性が高いでしょう。

Appleの物体認識特許は2014年2月に最初に出願され、Metaioの元CTOであるピーター・マイヤー氏とシニア設計エンジニアのトーマス・セヴェリン氏が発明者として名を連ねています。ARラベリング特許は2014年6月に出願され、マイヤー氏、レジン・ワン氏、ステファン・ミスリンガー氏が発明者として名を連ねています。