Appleの新しいAIトレーニング方法はプライバシーを維持し、将来のSiriをより柔軟にする可能性がある

Appleの新しいAIトレーニング方法はプライバシーを維持し、将来のSiriをより柔軟にする可能性がある

チャールズ・マーティンのプロフィール写真チャールズ・マーティン

· 1分で読めます

Apple の研究者は、より柔軟で強力な機械学習および「AI」型システムを可能にする大規模言語モデル (LLM) を迅速にトレーニングする新しいマルチモーダル手法を考案しました。

今週初めに同社が研究サイトarxiv.orgに投稿した研究論文によると、AppleはLLMの学習に、画像キャプション、画像とテキストのインターリーブ、そしてテキストのみのデータを「慎重に組み合わせた」ものを使用しているという。視覚データと言語データを組み合わせることで、モデルは画像にインテリジェントにキャプションを付与したり、自然言語の意味を推測したりするといったタスクを処理できるようになった。

調査の一環として、ビジョン言語コネクタの設計よりも、画像エンコーダの選択とそれが処理する画像の解像度がパフォーマンスに大きな影響を与えることが判明しました。

ある例では、300億パラメータのMM1モデルを用いて、強力な文脈学習能力が備わっていることが確認されました。この発見は、このモデルが「思考の連鎖」をほとんど必要とせずに、複数の画像に対して多段階の推論を実行できることを意味します。

Venturebeatによると、Appleは画期的な技術に関しては「先駆者」ではなく「ファストフォロワー」であり続けるという伝統を続けている。CEOのティム・クック氏は最近、同社が既存の技術に「AI」を組み込むために年間10億ドルを費やしていることを認めた。

クック氏は、同社が「AI分野での進行中の取り組みの詳細」を今年後半に発表する予定だと述べた。アップルは今年6月に開催されるWWDCで、その進歩について何らかの発表を行うと予想されている。

同社はAI関連技術の活用において競合他社に追いつこうとしている。また、既存の機械学習能力を強化しつつ、ユーザーのプライバシーを保護する手法も開発している。

プライバシーとセキュリティに関する後者の懸念は、既存の「チャットボット」タイプのサービスには備わっておらず、Apple にとっての課題を増大させています。

Appleはニューラルネットワークのマルチモデル学習に注力し、最先端のパフォーマンスを実現し、多段階の推論を可能にしました。これは、同社が機械学習能力を急速に進化させ、高度な「インテリジェンス」機能も付与する道筋を見つけたことを示唆しています。