月曜日、Appleは、失敗したCSAM検出システムと非常によく似た差分プライバシー技術を使用したデバイス上のApple Intelligenceトレーニングにユーザーが参加できるようにする計画を発表した。
差分プライバシーは、Apple が 2016 年に iOS 10 で公に採用した概念です。これは、サンプル データにノイズを導入してデータ収集者がデータの出所を解明できないようにする、プライバシーを保護するデータ収集方法です。
Appleの機械学習ブログの投稿によると、AppleはApple Intelligenceのトレーニングに用いるユーザーデータを収集する方法として、差分プライバシーの実装に取り組んでいるとのことです。データはオプトインベースで匿名で提供され、個々のユーザーを特定できない形で提供されます。
この件は最初にブルームバーグで報じられ、Appleが実世界のユーザー情報に基づいて訓練された合成データを使用しているという報道について解説しました。しかし、iPhoneからユーザーデータを取得してサーバーファームで分析するほど単純な話ではありません。
代わりに、Appleは「差分プライバシー」と呼ばれる技術を活用します。これは、データ収集にノイズを導入し、個々のデータポイントのソースを遡れないように設計されたシステムです。Appleはさらに一歩進んで、ユーザーデータをデバイス上に残し、正確性を確認するためのポーリングのみを行い、その結果をユーザーのデバイスから取得します。
これらの方法により、Appleのプライバシーとセキュリティに関する原則が確実に守られます。デバイス分析の共有に同意したユーザーはこのシステムに参加しますが、そのデータはiPhoneから外部に漏れることはありません。
識別子なしでデータを分析する
差分プライバシーは、Apple が少なくとも 2006 年から頼りにし、開発してきた概念ですが、2016 年まで公のアイデンティティの一部にはなりませんでした。これは、人々が絵文字をどのように使用しているかを把握し、ローカル辞書に新しい単語を検索し、アプリ内でディープリンクを強化し、メモの検索ツールとして使用するための方法として始まりました。
差分プライバシーを用いたデータ分析。画像提供:Apple
Appleによると、iOS 18.5以降、差分プライバシー技術を用いてユーザーデータを分析し、Genmojiをはじめとする特定のApple Intelligenceシステムをトレーニングする。これにより、ユーザーがよく使うプロンプトのパターンを識別できるようになるため、AppleはAIをより適切にトレーニングし、それらのプロンプトに対してより良い結果を得ることができるようになる。
基本的に、Appleは「カウボーイハットをかぶった恐竜」など、人気があると思われる人工的なプロンプトを提供し、ユーザーデータ分析でパターンマッチを探します。人工的に挿入されたノイズと、数百の断片的なマッチを必要とする閾値のため、ユニークまたは個人を特定できるプロンプトを表示する方法は存在しません。
さらに、これらのプロンプトの断片的な検索は、肯定的または否定的な投票結果のみを導き出すため、分析からユーザーデータは得られません。繰り返しますが、データは分離され、特定の個人または識別子にまで遡ることはできません。
同じ手法が、Image Playground、Image Wand、Memories Creation、Writing Toolsの分析にも用いられます。これらのシステムは短いプロンプトに依存しているため、分析は単純なプロンプトパターンマッチングに限定されます。
Appleはこれらの手法をさらに発展させ、テキスト生成にも実装したいと考えています。メールなどのシステムでテキストを生成すると、プロンプトが長くなり、ユーザーの個人情報がさらに多く含まれる可能性が高くなるため、Appleは追加の対策を講じました。
Appleは最近の研究成果を活用し、実際のユーザーデータの集計傾向を表すために使用できる合成データの開発に取り組んでいます。もちろん、これはユーザーのデバイスからテキストを一切削除することなく行われます。
実際のメールを模倣している可能性のある合成メールを生成した後、それらを、最近のユーザーメールの限定サンプルと比較し、合成埋め込みを算出しました。多くのデバイスでサンプルに最も近い合成埋め込みは、Appleが生成した合成データが実際の人間のコミュニケーションを最もよく反映していることを証明しています。
デバイス間でパターンが見つかると、その合成データとパターンマッチングは、様々なトピックに適用できるよう改良されます。このプロセスにより、AppleはApple Intelligenceをトレーニングし、より優れた要約と提案を生成できるようになります。
繰り返しになりますが、Apple Intelligenceのトレーニングにおける差分プライバシー方式はオプトイン方式で、デバイス上で実行されます。ユーザーデータはデバイスから外部に漏れることはなく、収集されたポーリング結果にはノイズが混入するため、ユーザーデータが存在しない場合でも、個々の結果を単一の識別子に結び付けることはできません。
これらのApple Intelligenceのトレーニング方法は非常によく知られている
Appleのこの手法に心当たりがあるとすれば、それは同社がCSAM検出のために導入を計画していたものの、結局断念した手法に似ているように見えるからだ。このシステムはユーザーの写真をハッシュ化し、既知のCSAMのハッシュデータベースと比較するはずだった。
AppleのCSAM検出機能は、プライバシーを侵害したり暗号化を破ったりすることなく写真をハッシュ化することに依存していた。
しかし、これらは全く異なるシステムであり、目的も異なります。新しいデバイス搭載のApple Intelligenceトレーニングシステムは、Appleがユーザーに関する情報を一切収集できないように構築されていますが、CSAM検出はAppleがユーザーの写真に関する情報を発見することにつながる可能性があります。
この分析はiCloudの写真ストレージ内で行われる予定でした。Appleは、ユーザーの写真を確認したりiCloudから写真を削除したりすることなく、「Private Set Intersection」と呼ばれる手法を用いて写真のハッシュマッチングを実行できたはずです。
単一のデバイス上でCSAMハッシュの一致を示す可能性のある陽性結果が十分な数発生すると、システムが起動し、影響を受けた画像が人間による分析に送られます。発見された画像がCSAMである場合、当局に通知されます。
CSAM検出システムはユーザーのプライバシー保護、データ暗号化などに貢献しましたが、同時に、独裁政権によって悪用される可能性のある新たな攻撃ベクトルを数多く生み出しました。例えば、このようなシステムがCSAMの検出に利用できれば、政府がAppleに対し、特定の種類の発言や画像を検出するためにこのシステムの使用を強制するのではないかと懸念する声もありました。
Appleは最終的にCSAM検出システムを放棄しました。支持者たちはAppleの決定に反対の声を上げ、同社がそのようなコンテンツの拡散を防ぐための対策を何も講じていないと主張しています。
CSAM検出機能は新しいApple Intelligenceトレーニングシステムといくつかの類似点がありますが、それぞれ異なる技術に基づいて構築されていることに注意してください。例えば、ユーザーデータを難読化するためにデータセットに導入されるノイズ(これが差分プライバシーの基盤となっています)は、CSAM検出機能には含まれていませんでした。
どちらのシステムもユーザーデータを比較可能なデータブロックに変換するため、両者の類似点は容易に見受けられます。しかし、これらの技術は基盤と目標が大きく異なります。
Apple Intelligenceトレーニングのオプトアウト
実装の一部は似ているように見えますが、Appleははるかに物議を醸すことのない利用方法を採用したようです。とはいえ、プライバシー保護の有無にかかわらず、Apple Intelligenceのトレーニングにデータを提供したくないと考える人もいます。
データ分析設定を使用してオプトインまたはオプトアウトする
まだ何も実装されていませんが、ご安心ください。オプトアウトを確認する時間はまだあります。Appleによると、この機能はiOS 18.5で導入され、今後のベータ版でテストが開始される予定です。
オプトインされているかどうかを確認するには、「設定」を開き、下にスクロールして「プライバシーとセキュリティ」を選択し、「アナリティクスと改善」を選択します。AIトレーニングをオプトアウトしていない場合は、「iPhoneとWatchのアナリティクスを共有」設定を切り替えてオプトアウトしてください。