マイキー・キャンベル
· 2分で読めます
Appleが初めて公表した学術論文は、12月に発表されたコンピュータービジョンシステムに焦点を当てた研究で、最近、この分野で最も名誉ある賞の1つである2017年コンピュータービジョン&パターン認識会議で最優秀論文賞を受賞した。
学術論文の評価指標であるh指数によれば、この分野で最も影響力のある会議の一つとみなされているCVPRは、7月にAppleの論文を2つの最優秀論文賞のうちの1つに選んだ。
機械学習とコンピュータービジョンの博士号を持つAppleInsider読者のトム氏によると、CVPR賞はこの分野で最も人気のある賞の1つだそうです。
今年のカンファレンスには、過去最高の2,680件の有効な応募があり、そのうち2,620件が審査されました。代表者らは、その数を783件に絞り込み、71件の応募者に長時間の口頭発表の機会を与えました。最終的にAppleの応募作品が最優秀賞を獲得しました。同社にとって初のカンファレンスであったことを考えると、これは素晴らしい快挙です。
CVPR第2回最優秀論文賞は、Gao Huang氏、Zhuang Liu氏、Laurens van der Maaten氏、Kilian Q. Weinberger氏による「高密度接続畳み込みネットワーク」に関する研究に授与されました。この論文の研究は、コーネル大学が清華大学およびFacebook AI Researchと共同で実施しました。
「敵対的学習によるシミュレーション画像と教師なし画像からの学習」と題されたAppleの論文は、コンピュータビジョンの専門家であるアシシュ・シュリヴァスタヴァ氏と、トーマス・フィスター氏、オンセル・トゥゼル氏、ウェンダ・ワン氏、ラス・ウェッブ氏、そしてAppleの人工知能研究ディレクターであるジョシュ・サスキンド氏を含むエンジニアチームによって執筆されました。シュリヴァスタヴァ氏は7月23日にCVPRの参加者にこの研究成果を発表しました。
12月に公開された際に詳細が説明されているように、Appleの公開研究論文では、合成画像を使用して物体を認識するコンピュータービジョンアルゴリズムをトレーニングする手法について説明されている。
Appleによると、現実世界の画像のみに基づくトレーニングモデルは、合成データを利用するモデルよりも効率が低い場合が多いとのことです。これは、コンピューターで生成された画像には通常ラベルが付けられているためです。例えば、目や手の合成画像にはそのようにアノテーションが付与されますが、類似した物体を描いた現実世界の画像はアルゴリズムにとって未知のため、人間のオペレーターによる説明が必要になります。
しかし、Appleが指摘しているように、シミュレーション画像に完全に依存してしまうと、満足のいく結果が得られない可能性があります。コンピュータ生成コンテンツは、正確な学習セットを提供するのに十分なリアリティがない場合があります。このギャップを埋めるために、Appleは「シミュレーション+教師なし学習」を融合させたSimGANを通じて、シミュレータの出力を改良するシステムを提案しています。この技術は、ラベル付けされていない実際の画像データと、敵対的生成ネットワーク(GAN)、つまり競合ニューラルネットワークを用いてアノテーション付きの合成画像を組み合わせます。
Appleは研究において、SimGANを静止画像における視線と手のポーズ推定の評価に適用しました。同社は、将来的にはS+U学習をさらに発展させ、動画入力にも対応させたいと述べています。
他のシリコンバレーのテクノロジー企業と同様に、Appleは機械学習とコンピュータービジョン技術に多額の資金を投入しています。こうした取り組みから得られる情報は、SiriやARKitを活用した拡張現実(AR)アプリといった消費者向け製品の強化につながる可能性が高いでしょう。また、Appleは自動運転車向けアプリケーションを含む様々な自律型ソリューションの開発にも取り組んでおり、今後数ヶ月、あるいは数年以内に市場投入される可能性があります。
「私たちは自律システムに注力しています」とクック氏は6月のインタビューで述べた。「これは私たちが非常に重要だと考えている中核技術です。いわば、あらゆるAIプロジェクトの母体だと考えています。」