Appleの技術は機械学習を3Dマッピングに適用し、空中での正確なジェスチャー認識を実現

Appleの技術は機械学習を3Dマッピングに適用し、空中での正確なジェスチャー認識を実現

マイキー・キャンベルのプロフィール写真マイキー・キャンベル

· 2分で読めます

出典: USPTO

Appleは空中3Dジェスチャーコントロール技術の開発を続けており、月曜日には人間の手のジェスチャーを驚くほどの精度で認識できる機械視覚システムの特許を取得した。

米国特許商標庁は、Apple に「学習ベースの手と指のポーズの推定」に関する米国特許第 9,002,099 号を付与しました。これは、特殊な学習アルゴリズムを適用することで、光学 3D マッピング システムがユーザーの手のジェスチャーをより正確に識別できる方法を説明した発明です。

Appleが新たに特許を取得した技術を活用すれば、3Dマッピングハードウェアは、ユーザーの手の一部が異物で遮られている場合でも、ピースサインと握りこぶしを区別できるようになります。空中ジェスチャーコントロールなどのアプリケーションでは、精度の向上により、よりきめ細かなポーズ処理が可能になり、結果として、より広範なコントロールスキームのライブラリへの道が開かれます。

この特許は、シーンの深度マップをかなり高精度に作成できる3Dイメージングハードウェアに基づいています。これらのマップを処理し、手のランドマークを分離し、デジタルスケルトンの複製を再構築し、ランドマーク同士の相対的な位置関係を割り当てることで、例示的なシステムは手のポーズを正確に判定できます。

Appleは既に深度マッピング関連の特許を保有しており、その中には2013年にモーションセンシングと3Dスキャンのハードウェアおよびミドルウェアで知られるイスラエル企業PrimeSenseを買収した際に取得した知的財産も含まれています。PrimeSenseの技術は、ゲーマーが手や体のジェスチャーでマシンを操作できるMicrosoftのXbox 360用Kinectセンサーに採用されています。

USPTO に提出された最初の PrimeSense 特許再譲渡は、昨年、今日の発明の強固なバックボーンとなる投影ベースの 3D マッピング ソリューションに関するものでした。

一般的な認識システムは、ユーザーの手のポーズ、つまりジェスチャーを推定するために、少なくともいくつかのランドマーク特徴を必要とします。これらの特徴は通常、指先、関節、手のひら、手の付け根などから得られます。これらの「パッチ」に関連する深度データは、学習エンジンによって後で取得できるようにビンにまとめられます。システムは深度マップのシーケンスを処理ユニットに入力し、パッチ記述子を既知の運動学データベースと比較対照することで、手や指の配置、軌跡、空間関係、その他の指標を分析します。

重要なのは、Appleの特許が部分的な手の遮蔽を考慮している点です。3Dマッピングデバイスがユーザーの手を認識できない場合、姿勢を合理的に判断することはできません。しかし、ユーザーの手が、おそらくもう片方の手や人によって部分的にしか視界から隠れていない場合、ランドマークの合理的な推定は依然として可能かもしれません。

遮蔽された特徴を含む画像パッチを無視するか、あるいは遮蔽されたランドマークを含むパッチは含めるが、隠れた特徴を含む遮蔽されたビンは無視することで、特定のシーンの正確な記述子を得ることができます。データベースに保存されている既知の距離と運動学を適用し、さらにデータベースに時間の経過とともに追加することで、信頼性の高い手の動きと位置のデータが得られます。

特許の残りの部分では、特殊な推定アルゴリズム、信頼度の計算、重み付けの式などについてさらに詳しく説明しています。

Appleの手と指のポーズの特許は2013年3月に初めて申請され、発明者はShai Litvak、Leonid Brailovsky、Tomer Yanirとされている。