Appleの新しい機械学習研究は、Apple Intelligenceをより賢くする

Appleの新しい機械学習研究は、Apple Intelligenceをより賢くする

Appleの機械学習研究者は、主要なAIカンファレンスで採択された研究論文が示すように、Apple Intelligenceやその他の生成AIシステムを改善するためにさまざまな方法に取り組んできた。

Apple IntelligenceをはじめとするAppleの機械学習ツールの開発には、膨大な研究が必要です。これは、既存のサービスの向上と、Appleがまだユーザーに提供していない将来のサービスの両方を対象とするものです。

Apple はこれまでのリリースでこの研究を少しだけ紹介してきましたが、第 13 回国際学習表現会議で採択された論文の一部では、この研究についてより詳しく知ることができます。

コンピュータビジョンの強化とコンピュータビジョン

機械学習研究の主要分野の一つはコンピュータービジョンです。画像から情報を引き出す能力は、システムに大きな優位性をもたらす可能性があります。

「Depth Pro:1秒未満で鮮明な単眼メトリック深度を実現」のプレゼンテーションで、Appleは一枚の画像から深度情報をどのように特定するかを説明しています。これには、髪の毛や毛羽などの微細なディテールを考慮した高解像度の深度マップの作成も含まれます。

このシステムは、使用されたカメラの種類などのメタデータを必要とせずに、これを実現します。

上段:ラクダ、鳥かご、猫(詳細な挿入図付き)。下段:ラクダ、鳥かご、猫の熱画像(ハイライト部分付き)。

Depth Proの深度マップの例 - 画像提供: Apple

コンピュータビジョンは重要な分野の一つですが、もう一つは画像生成という別の方向性を指向する分野です。テキストから画像への生成と制御に関する2つの論文において、Appleは出力を制御する手法を提示し、もう1つの論文では拡散ベースのテキストから画像への生成に関する新しい手法を扱っています。

前者については、Appleはアクティベーショントランスポート(最適輸送理論を用いてアクティベーションを誘導する世代別フレームワーク)を採用していると説明しています。これは、これまでのアクティベーション誘導研究の一般化に基づいています。

DART(スケーラブルなテキストから画像への生成のための自己回帰変換)は、マルコフ過程にノイズを加える現在のノイズ除去は学習において非効率的であると主張するものです。Appleは、非マルコフ的枠組みの中で自己回帰と拡散を統合する変換ベースのモデルを提供しています。

その結果、柔軟性を保ちながらより効果的で、統一されたモデル内でテキストと画像データの両方をトレーニングできるシステムが実現しました。

意思決定と推論

Apple Intelligence がユーザーに代わってアプリを起動したりタスクを実行したりする可能性があるため、研究者は、ある程度の確実性を持ってそのようなタスクを実行できるシステムを開発する必要があります。

「順次意思決定のための大規模言語モデルのモデリング機能について」というプレゼンテーションで、Apple の研究者は、LLM の一般知識を強化エージェントのポリシー学習に利用できる可能性を提案します。

結果は、「人間が設計したコストのかかる報酬関数」の代わりに、汎用的な基礎モデルと自動アノテーションの使用が現実的である可能性を示唆しています。これは、将来的にはより効果的なトレーニングシステムを用いてモデルを作成できるようになることを意味します。

複雑なタスクでは、モデルは推論ステップを踏む必要がありますが、それぞれのステップでエラーが発生し、問題が発生する可能性があります。現在の研究では、複数の解に重み付けを行う外部検証器が使用されていますが、サンプリングの非効率性の影響を受け、多くの監督が必要になります。

サンタの帽子をかぶったお祭り気分のコーギー、カラフルなドラゴン、野菜をまとった豚、エイリアンの宇宙船、宇宙飛行士、クマのアイスクリームコーン、燃えるようなライオン、結婚式のロボット、秋の小道、ポップコーンを持ったハリネズミ。

DART画像生成の例 - 画像提供: Apple

「ツイスト逐次モンテカルロ法による数学問題の段階的推論」は、サンプリングの労力を精緻化し、有望な解に重点を置く手法を提案しています。部分的な解に対する将来の期待報酬を推定することで、人間の介入を最小限に抑えながらモデルを学習できます。

LLMを用いて安全なAIエージェントを構築するには、モデルがユーザーが提供する制約やガイドラインに従う必要があります。しかし、LLMは基本的なコマンドさえも実行できないことがよくあります。

「LLMは指示に従うタイミングを内部的に認識しているか?」というプレゼンテーションでは、LLMが理論的には指示に従うことと相関する情報を表現の中に符号化しているかどうかを検証します。これには、応答が指示に従うかどうかの予測の作成や、類似のタスク全体に対するLLMの有効性の一般化が含まれます。

LLMが幻覚を起こす可能性、つまり誤った結果を作り出して事実のように伝える可能性が明確に存在するため、LLMは自身の確実性を推定する必要もあります。「LLMは指示に従う際に不確実性を適切に推定できるか?」という別のプレゼンテーションでは、LLMが不確実性をどの程度正確に推定できるかを評価する能力を評価します。

Apple は、現在の見積もり方法はうまく機能していないため、変更が必要であると考えています。

会議でのApple

Appleの研究者は、4月24日から28日までシンガポールで開催されるICLRにおいて、提出された研究成果を様々なトピックで発表します。また、AppleはC03会場にブースを出展するほか、会期中に開催されるアフィニティグループ主催のイベントにも協賛します。

ブースでは、単眼深度推定システム「Depth Zero」を体験いただけます。また、モバイルフレンドリーな視覚言語モデル「FastVLM」もご覧いただけます。