Apple の Ferret LLM は、Siri が iPhone ディスプレイ上のアプリのレイアウトを理解できるようにし、Apple のデジタル アシスタントの機能を向上させる可能性がある。
Appleは、WWDC 2024で発表される可能性のある数多くの機械学習およびAIプロジェクトに取り組んできました。先日発表された論文によると、その取り組みの一部には、SiriがアプリやiOS自体の外観を理解できる可能性があるようです。
コーネル大学が月曜日に発表した論文のタイトルは「Ferret-UI:マルチモーダル大規模言語モデルによるグラウンデッドモバイルUI理解」です。この論文は、モバイルディスプレイのユーザーインターフェースを理解する可能性を秘めた新しいマルチモーダル大規模言語モデル(MLLM)について解説しています。
Ferretという名前は、コーネル大学の研究者がAppleの研究者と共同で10月にリリースしたオープンソースのマルチモーダルLLMに由来しています。当時、Ferretは、写真の特定の部分から動物の種類を特定するといった複雑なクエリに対して、画像の異なる領域を検出・理解することができました。
LLMへの昇進
Ferret-UIに関する新しい論文では、MLLMの利用において目覚ましい進歩が見られるものの、「ユーザーインターフェース(UI)画面を理解し、効果的に操作する能力が依然として不足している」と説明されています。Ferret-UIは、モバイルUI画面の理解に特化した新しいMLLMであり、「参照、グラウンディング、推論機能」を備えています。
LLMがモバイルディスプレイのインターフェースを理解する上で直面する問題の一つは、そもそもその使い方にあります。縦向きで表示されることが多いため、アイコンやその他の情報がディスプレイの非常に狭い部分を占めてしまい、機械にとって理解しにくい状況に陥ることがあります。
これを支援するために、Ferret には、アイコンやテキストを読みやすくするために画像を「任意の解像度」に拡大する拡大システムがあります。
Ferret-UIがiPhoneのディスプレイを解析する例
Ferretは処理と学習のために画面を2つの小さなセクションに分割し、画面を半分に切ります。論文によると、他のLLMは解像度の低いグローバル画像をスキャンする傾向があり、アイコンの外観を適切に判断する能力が低下するとのことです。
トレーニング用のデータを大幅にキュレーションすることで、ユーザーのクエリを十分に理解し、画面上のさまざまな要素の性質を理解し、コンテキストに応じた応答を提供できるモデルが実現しました。
例えば、ユーザーがリマインダーアプリの開き方を尋ねると、画面上の「開く」ボタンをタップするように指示されます。さらに、15歳でもアプリを使えるかどうかを尋ねると、画面に年齢制限が表示されている場合は、年齢制限も表示されます。
補助的なアシスタント
Siriのようなシステムに組み込まれるかどうかは不明ですが、Ferret-UIはiPhoneのようなデバイスを高度に制御する可能性を提供します。ユーザーインターフェース要素を理解することで、Siriがアプリ内のグラフィカル要素を自ら選択することで、ユーザーに代わってアプリ内でアクションを実行できるようになります。
視覚障害者にとって便利なアプリケーションもあります。このようなLLMは、画面に表示されている内容をより詳細に説明したり、ユーザーが指示するだけで何もしなくても自動的にアクションを実行したりできる可能性があります。