Apple AI研究:コンテキストデータの解析においてReALMはGPT-4よりも小さく、高速

Apple AI研究:コンテキストデータの解析においてReALMはGPT-4よりも小さく、高速

Wesley Hilliard's profile pictureウェズリー・ヒリアード

· 2分で読めます

AppleはSiriにAIを導入しようとしている

Apple AI の研究により、任意のコンテキストを大規模言語モデルで解析しやすいテキストに変換することで、Siri へのコマンドをより迅速かつ効率的に実行できるモデルが明らかになりました。

Appleは6月のWWDCでAIイニシアチブの一般公開を控えており、同社の人工知能(AI)研究は次々と発表されています。これまでに、画像アニメーションツールなど、様々な研究成果が発表されています。

最新の論文はVentureBeatによって初めて共有されました。この論文では、ReALM(Reference Resolution As Language Modeling)と呼ばれる技術について詳しく説明されています。

ユーザーが「これ」や「あれ」とどのように言うかといった曖昧な言語入力に基づいてコンピュータプログラムにタスクを実行させることは、参照解決と呼ばれます。コンピュータは人間のように画像を解釈できないため、これは解決が複雑な問題ですが、AppleはLLMを用いて効率的な解決策を見つけたのかもしれません。

Siriのようなスマートアシスタントに話しかける際、ユーザーはバックグラウンドタスク、画面上のデータ、その他会話とは関係のない情報など、様々なコンテキスト情報を参照しながら対話を行う可能性があります。従来の解析手法は、非常に大規模なモデルや画像などの参照資料に依存していましたが、Appleは全ての情報をテキストに変換することで、このアプローチを合理化しました。

Appleは、ReALMの最小モデルが、はるかに少ないパラメータでGPT-4と同等の性能を発揮し、デバイス上での使用に適していることを発見しました。ReALMで使用されるパラメータを増やすと、GPT-4を大幅に上回る性能を発揮しました。

このパフォーマンス向上の理由の一つは、GPT-4が画面上の情報を理解するために画像解析に依存していることです。画像トレーニングデータの多くは、テキストで埋め尽くされた人工的なコードベースのウェブページではなく、自然画像に基づいているため、直接OCRを行うのは効率が悪くなります。

Two images listing information as seen by screen parsers, like addresses and phone numbers

スクリーンキャプチャデータをテキストとして表現したもの。出典:Apple調べ

画像をテキストに変換することで、ReALMは高度な画像認識パラメータを必要とせず、サイズが小さくなり、効率が向上します。Appleはまた、デコードを制限したり、シンプルな後処理を行ったりする機能を追加することで、幻覚現象の問題を回避しています。

例えば、ウェブサイトをスクロールしていて、ある企業に電話をかけたいと思った場合、「その企業に電話して」と言うだけでは、Siriは文脈に基づいてあなたの意図を解釈する必要があります。Siriは、ページ上に企業の電話番号と表示されている電話番号があることを「認識」し、ユーザーにそれ以上尋ねることなく電話をかけることができます。

Appleは、WWDC 2024で包括的なAI戦略を発表すべく取り組んでいる。一部の噂によると、同社はプライバシーとセキュリティを保護する小規模なオンデバイスモデルに依存し、倫理的な難問を抱える、より物議を醸すオフデバイス処理については他社のLLMのライセンスを取得するとのことだ。