Appleの研究により、将来のApple Intelligenceツールの可能性が明らかに

Apple は、機械学習ブログに 2 つの新しい研究論文を公開しました。この論文では、写真測量の改良のための AI モデルと、ビデオ関連のパーソナルアシスタントとして機能する AI モデルについて詳しく説明しています。

iPhoneメーカーである同社は長年、機械学習に関心を寄せており、それが同社のAIへと発展しました。同社は、将来の技術における進歩を示すために、研究論文を公開してきました。

Apple Intelligence は、Image Playground、メールアプリ内の AI 生成スマート返信、電子メールと通知の概要、新しい Writing Tools フレームワークなど、新しいアプリケーションへのアクセスをユーザーに提供します。

Appleは引き続き人工知能研究に注力しており、新たに発表された2つの論文は、将来のAI機能の方向性に関する洞察を提供しています。具体的には、同社は機械学習ブログで「Matrix3D」と「StreamBridge」と呼ばれる2つのAIモデルについて解説しました。

Matrix 3Dは写真測量の精度向上を実現します

Appleによると、Matrix3Dはオールインワンの大規模写真測量モデルであり、2D画像から3Dオブジェクトを作成するための要件を合理化し、削減します。Appleのサンプルビデオに示されているように、わずか数枚の画像から3Dオブジェクトや環境を作成できます。

単一入力、マルチビューモダリティ、最適化、小さなフクロウをテーマにしたバックパックの 3D レンダリングなど、ハイブリッドタスクの構成推論パイプラインを示す図。

AppleのMatrix3Dモデルは写真測量プロセスを効率化します。画像提供：Appleの機械学習ブログ。

フォトグラメトリ自体は決して新しい概念ではなく、ゲーム開発など様々な業界で活用されてきました。しかし、AppleがMatrix3Dを介して実装したことにより、かつては複数のステップを要していた作業が簡素化され、プロセスにおけるエラーが排除されました。

従来のフォトグラメトリ手法では、各サブプロセスが特定のアルゴリズムを必要とする独立したステップとして扱われますが、Appleの新しいAIモデルは必要なすべてのタスクを実行します。深度や姿勢の推定といったプロセスに加え、統一されたアーキテクチャを用いた革新的なビュー合成も処理することで、精度の向上を実現します。

同社のMatrix3Dモデルは、マスク学習戦略と呼ばれる手法を用いて学習されました。これは本質的に、モデルが部分的に完成した画像の深度データと姿勢データを用いて学習されたことを意味し、望ましい結果を得るためには事実上「空白を埋める」必要がありました。

Appleは研究論文の中で、従来の写真測量法では「堅牢で正確な3D再構築を実現するために、通常、数百枚にも及ぶ高密度の画像コレクションが必要となり、実用化には問題が生じる可能性がある」と指摘している。一方、Matrix3Dモデルでは、同じ出力を得るために2～3枚の画像しか必要としないため、写真測量法の要件が大幅に削減される。

AppleはすでにApple Vision Proで2D画像を3Dに変換しています。これは、ポートレートモードの深度データがない画像でも実行できるアクションです。

Apple が公開したもう 1 つの人工知能モデルは、画像よりもビデオに関係しています。

StreamBridgeは「プロアクティブストリーミングアシスタント」として機能します

AppleのStreamBridgeに関する研究論文によると、StreamBridgeは「ビデオLLMをストリーミング対応モデルに変換する」フレームワークです。一部のAIモデルは、事前に録画されたビデオファイル全体を処理することでビデオ入力を処理しますが、AppleのStreamBridgeモデルは「複数ターンのリアルタイム理解」と「プロアクティブな応答生成」を提供できます。

ユーザーが質問をし、回答を受け取り、描画の指示を受けるという、ストーリーボードのような一連の流れ。画像には、ヘリコプター、飛行機、標識、家、木、太陽、雲など、様々なシーンが描かれています。

AppleのStreamBridgeモデルは、ビデオ対応アシスタントとして機能します。画像提供：Appleの機械学習ブログ。

つまり、StreamBridgeは動画に関する様々な質問にリアルタイムで答えることができるということです。Appleの例では、動画の出来事や場所に関する質問に加え、入力動画に登場する特定の物体に関する質問も含まれています。

StreamBridgeは、ユーザーが指示しなくても指示を出すことができます。「モデルは視覚的な流れを積極的に監視し、展開されるコンテンツに基づいてタイムリーな出力を生成します。」Appleが提供した例では、同社のAIモデルがユーザーに「明示的に指示しなくても、描画の進行に合わせて段階的なガイダンスを提供し、動的な環境における継続的なサポートをシミュレート」しています。

他のテクノロジー企業も、ビデオ入力に基づいて指示を提供することを目的とした独自のビデオ AI ツールをリリースしています。

Googleは、2024年5月に開催された年次開発者会議「Google I/O」で、ユーザーがビデオ形式で質問し、AIが生成した回答や提案を受け取ることができるという、人工知能の興味深い使用例を紹介しました。

イベントの一環として、GoogleのAIに壊れたレコードプレーヤーの動画を見せ、なぜ動かないのか尋ねました。ソフトウェアはレコードプレーヤーのモデルを識別し、レコードプレーヤーのバランスが崩れている可能性があり、それが動かない原因であると示唆しました。