Appleの研究者はAIの幻覚と真の会話に狙いを定めている

Appleの研究者はAIの幻覚と真の会話に狙いを定めている

Apple Intelligence の研究者らは、AI のパーソナライズ能力の向上とエラーの発生メカニズムの理解に関する一連の新たな学術論文を発表した。

Appleは業界に遅れをとっているという見方は依然として根強いものの、同社の研究者たちはApple製品の枠を超え、あらゆるAIツールに影響を及ぼす問題を扱った論文を発表し続けています。同社の研究は長年にわたり行われていますが、最新の論文はAIの欠陥と、AIの望ましくない行動を防ぐ方法に焦点を当てています。

現在、同社の研究者らは、主にこの視点を拡張した 8 つの新しい論文と、2024 年に開催された Apple の「人間中心の機械学習 2024」ワークショップでのプレゼンテーションの一連のビデオを公開している。

AIのベンチマークとエラーの発見

Appleの新しい論文の一つでは、研究者が「大規模マルチタスク・エージェント理解(MMAU)」ベンチマークと呼ぶものを提案しています。これは、以下の「5つの必須機能」に基づいて、様々な大規模言語モデル(LLM)を評価するシステムです。

  • 理解
  • 推論
  • 計画
  • 問題解決
  • 自己修正

Appleによると、MMAUベンチマークは「3,000以上の異なるプロンプトを含む、綿密に設計された20のタスク」で構成されているとのことです。これは、LLMを評価するための包括的な方法であるとされています。

理解、推論、計画、問題解決、自己修正、ツールの使用、DS/ML コーディング、数学のカテゴリを含む、大規模マルチタスク エージェント理解 (MMAU) の機能とドメインを示すチャート。

LLM評価プロセスの一連の流れを示す論文の詳細 — 画像提供: Apple

「最終的に、MMAU は LLM エージェントの機能と限界を明らかにするだけでなく、そのパフォーマンスの解釈可能性も向上させます」と Apple 氏は続けます。

その目的は、エラーの発生場所を理解することで改善を図ることです。Appleによると、これは現在、既存の「評価方法では異なる種類の障害の区別が曖昧になっている」という問題を抱えています。MMAUは、既存の代替手段よりも使いやすさを向上させることも目指しています。

この論文全文は、コーネル大学の研究論文アーカイブから読むことができます。

AIをパーソナライズし、会話から学習する

Appleは、AI LLMは過去の会話を記憶するなど、十分にパーソナライズできないという制約があると示唆している。同社によると、これまでの応答をパーソナライズする試みは、ユーザーの好みに関する「小さな豆知識」を組み込むことに集中していたという。

代わりにAppleは、「大規模言語モデルにおけるユーザー会話学習パイプライン(PLUM)」と呼ばれるシステムを提案しています。これは「会話から質問と回答のペアを抽出」し、「過去のユーザー会話の知識を大規模言語モデルに注入する」手法を構築します。

論文全文はここでお読みください。

LLMとAIの外部検証

LLMは、プロンプトが異なる語順で繰り返されたり、同じプロンプトの長いバージョンや短いバージョンが繰り返されたりすると、大きく異なる回答を返すことが知られています。Appleはこれを「AIアノテーターはいくつかのバイアスの影響を受けやすいことが観察されている」と説明しています。

しかし、Appleは、人間は返答を提示されると「返答の主張力」によって説得されてしまうとも主張している。これは、AIが自らの結果を絶対的で揺るぎない事実として宣言し、再度質問されると「いや、どれも真実ではない」と認めるというやり方である。

初期ドメイン評価、ツールの使用(ファクトチェック、コード実行、数学チェック)、最終決定と判断に至るモデル応答の評価エージェントプロセスを示すフローチャート

外部検証論文の詳細(方法論を示す)— 画像提供:Apple

そこでAppleは、「外部検証ツールはLLM-as-a-Judgeのアノテーション品質を向上させることができるか?」という論文で、より良い回答を生み出したいと考えています。そのために「ウェブ検索とコード実行に基づく外部検証ツール」を用いることを提案しています。

しかし、この研究では、この種の検証は「常にというわけではないが、往々にして」より良い結果を生み出すことができたと指摘している。

論文全文はここでお読みください。

AppleはAIイベントで論文発表を続けている

Appleは研究論文に加え、2024年の#人間中心の機械学習ワークショップの8本のビデオシリーズも公開しました。長さは10分から38分で、AIインターフェースやUI理解といったトピックを取り上げています。

これらの動画はすべて2024年に開催されたセッションのものですが、Appleの研究者は引き続き新たなAIイベントで講演を行っています。Appleは2025年7月27日から8月1日まで、ウィーンで開催される年次計算言語学会(ACL)で新たな研究を発表する予定です。

Appleは18のワークショップを開催またはスポンサーしており、その多くはここで紹介した最新の論文に基づいています。ACLにおけるAppleのスケジュールの詳細は、Appleの機械学習サイトをご覧ください。