Appleの研究論文によると、ヒューマノイドロボットは、人間のインストラクターとロボットのデモンストレーターの協力のもとでより効果的に訓練できるとのことで、これは同社が「PH2D」と呼ぶ新しい複合アプローチの一部である。
Appleは、Matrix3DとStreamBridgeのAIモデルを発表してから1週間後の水曜日、ロボットとそのトレーニング方法に関する新たな研究を発表しました。iPhoneメーカーであるAppleはこれまでロボット工学に取り組んでおり、ロボットランプの開発なども行ってきましたが、今回の研究は特にヒューマノイドロボットに焦点を当てています。
「ヒューマノイドポリシー~ヒューマンポリシー」と題されたこの研究論文は、従来のロボットトレーニング方法の不十分さを詳しく説明し、拡張性とコスト効率の両方を兼ね備えた新しい解決策を提案している。
論文によれば、ヒューマノイドロボットの訓練は「労働集約的」であり、「高価な遠隔操作によるデータ収集」も必要となるプロセスだが、アップルの研究では、ロボットのデモンストレーターだけに頼るのではなく、複合的なアプローチを提案している。
このプロセスの一環として、ロボットのデモンストレーターに加え、人間のインストラクターも活用します。Appleの調査によると、同社は改造された消費者向け製品を使用することで、ヒューマノイドロボットのトレーニング教材を作成できたとのことで、これはトレーニング関連コストの削減を目的としています。
具体的には、Apple Vision Proを改造し、左下カメラのみを視覚観察に使用し、AppleのARKitを使用して3Dの頭部と手のポーズを取得しました。また、ミニZEDステレオカメラを搭載した改造Meta Questヘッドセットも活用し、実質的に低コストのトレーニングオプションを実現しました。
改造されたヘッドセットは、ヒューマノイドロボットの手の操作訓練に使用されました。人間のインストラクターは、直立姿勢で座り、手を使って動作を行うように指示されました。動作には、特定の物体をつかんだり持ち上げたり、液体を注いだりすることなどが含まれており、動作を記録しながら音声指示が与えられました。撮影された映像は、ヒューマノイドロボットの訓練に使用できるようにスロー再生されました。
人間のインストラクターは、このプロセスの一環として、改造されたApple Vision Proヘッドセットを使用しました。画像提供:Apple
Appleは、人間のインストラクターが作成したトレーニング教材だけでなく、ロボットデモンストレーターが作成した教材も処理できるモデルを開発しました。論文ではこれを「Physical Human-Humanoid Data」(PH2D)と呼んでいます。このデータを処理するモデルは「Human-humanoid Action Transformer」(HAT)と呼ばれ、人間とロボットの両方が作成した入力を処理できます。
同社の研究者たちは、人間とロボットのデモソースを「一般化可能なポリシーフレームワーク」に統合することに成功しました。Apple独自のアプローチは、「実際のロボットデータのみを使用してトレーニングされた同等のシステムと比較して、一般化と堅牢性の向上」につながると研究論文は述べています。
AppleのHATは、ロボットのデモンストレーターや人間のインストラクターが作成したデータを処理できます。画像提供:Apple
Appleの研究は、この複合的な訓練戦略を用いることで大きなメリットが得られることを示唆しています。費用対効果が高いだけでなく、この手法で訓練されたロボットは、ロボットデモンストレーターのみを用いた場合と比較して、より良い結果を示しました。ただし、これは垂直方向の物体把持など、特定のタスクにのみ当てはまります。
同社はこのトレーニング方法を将来の製品に導入する可能性が高い。現時点ではロボットランプのプロトタイプのデモしか行っていないものの、Appleは一般消費者向けに、家事や簡単な作業をこなせるモバイルロボットの開発に取り組んでいると伝えられている。