Appleは新たな研究論文の中で、Webから違法に収集された情報に基づいてApple Intelligenceモデルをトレーニングしていないという主張を改めて強調している。
同じく2023年には、Appleがコンデ・ナストやNBCニュースなどの出版社の作品を用いて自社の大規模言語モデル(LLM)を学習させる権利を購入しようとしたと報じられました。Appleは出版社に数百万ドルの提示を提示したと伝えられていましたが、当時、どの出版社が合意したか、あるいは合意に至らなかったかは明らかではありませんでした。
今回新たに発表された研究論文の中で、Apple は、出版社がトレーニング用のデータ取得に同意しない場合は、データ取得を行わないと述べています。
アップルが倫理規定を詳細に説明
「私たちは、多様で高品質なデータを用いてモデルを学習させることに信念を持っています」とAppleは述べています。「これには、出版社からライセンス供与されたデータ、公開またはオープンソースのデータセットからキュレーションされたデータ、そして当社のウェブクローラーであるApplebotによってクロールされた公開情報が含まれます。」
「当社は、基盤モデルのトレーニングにおいて、ユーザーの個人情報やユーザーインタラクションを使用しません」と同社は続ける。「さらに、特定のカテゴリーの個人を特定できる情報を削除し、冒とく的な表現や危険なコンテンツを除外するためのフィルターを適用する措置を講じています。」
「(私たちは)倫理的なウェブクロールのベストプラクティスに従い続けています。これには、広く採用されているrobots.txtプロトコルの遵守も含まれており、ウェブパブリッシャーは、Appleの生成基盤モデルの学習にコンテンツが利用されることをオプトアウトできます」とAppleは述べています。「ウェブパブリッシャーは、Applebotが閲覧できるページとその利用方法をきめ細かく制御できます。その場合でも、SiriやSpotlightの検索結果には表示されます。」
「きめ細かな制御」は、長年利用されてきたrobots.txtシステムを基盤としているようです。robots.txtは標準的なプライバシーシステムではありませんが、広く採用されており、パブリッシャーはrobots.txtと呼ばれるテキストファイルを自社のサイトに掲載します。
ChatGPTロゴ - 画像クレジット: OpenAI
AIシステムがそのファイルを見た場合、ファイルに記載されているサイトや特定のページをスクレイピングしないはずです。それだけです。
企業が何を言い、何をするか
企業の AI システムが robots.txt を尊重すると言うのは簡単であり、OpenAI もそれを暗示しているが、それは暗示しているに過ぎない。
「数十年前、robots.txt標準が導入され、ウェブパブリッシャーがウェブクローラーがウェブサイトのどの部分にアクセスできるかを示すためにインターネットエコシステムによって自主的に採用されました」とOpenAIは2024年5月の「データとAIへのアプローチ」というブログ記事で述べている。
「昨年の夏、OpenAIはAIにおけるウェブクローラーの権限設定を先駆的に導入し、ウェブパブリッシャーがAIにおけるコンテンツの利用に関する希望を表明できるようにしました。私たちは新しいモデルをトレーニングするたびに、これらのシグナルを考慮に入れています」と続けた。
シグナルを考慮するという最後の部分でさえ、OpenAIがこれらのシグナルを尊重していると言っているわけではありません。シグナルに関する重要な段落はrobots.txtに関する段落のすぐ後に続きますが、シグナルを考慮しているとは明示的に述べられていません。
そして、多くのAI企業はrobots.txtの指示を一切遵守していないようです。市場分析会社TollBitによると、2025年3月時点で、AI企業がrobots.txtを完全に無視したために、2,600万件以上のスクレイピングが禁止されたとのことです。
同社は、その数が増加していると報告しています。2024年第4四半期には、AIスクレイピングの3.3%がrobots.txtを無視し、2025年第1四半期には約13%に増加しました。
TollBitはその理由について推測していませんが、利用可能なインターネット全体が既にスクレイピングされている可能性が高いです。そのため、企業は訴訟を続行しており、2025年6月には米国地方裁判所が訴訟の提起を認めました。
Robots.txtは単なる「ノー」以上のものだ
AIシステムがウェブサイトのスクレイピングを試みる際は、自己識別を行います。そのため、Googleがスクレイピングを行うと、サイト側はGooglebotがアクセスしていることを記録し、包括的な権限リストを返します。
このリストには、ボットがアクセスできないサイトのセクションが含まれています。Appleのシステム「Applebot」が2015年に公開された際、Appleは、サイトがApplebotを認識しない場合、Googlebot向けのガイドラインに従うと述べていました。
BBCは2023年に、「OpenAIやCommon CrawlなどのウェブクローラーがBBCのウェブサイトにアクセスするのを防ぐための措置を講じた」と発表しました。同時期に行われた1,156のニュース出版社を対象とした調査では、OpenAIやGoogle AIを含む626のニュース出版社がAIスクレイピングをブロックしていることが判明しました。
アントロピックに対する訴訟では、AIはどんな素材でも訓練できると結論づけられた。
しかし、ある企業がスクレイピングツールの名前を変更したため、ブロックを無視できるようになった。あるいは少なくともそうしたと非難されるかもしれない。
Apple が買収すると繰り返し噂されている Perplexity.ai も、倫理的な AI として自らを売り出しており、倫理がなぜそれほど必要なのかについて詳細なブログ記事を投稿している。
しかし、その記事が掲載されたのは2024年11月であり、その前の6月にはフォーブス誌がパープレキシティに対し、スクレイピングを実施したとして警告を発していました。パープレキシティのCEO、アラヴィンド・スリニヴァス氏は後に、同社の検索とスクレイピングには「粗削り」な部分があったことを認めました。
AppleはAIで傑出している
少なくとも ForbesがPerplexity.aiに対して始めたように、倫理的なAIトレーニングに関するAppleの主張が法的に争われない限り、それが真実かどうかは決して分からないだろう。
しかし、OpenAIはこの件で訴訟を起こされ、Microsoftも訴訟を起こし、Perplexityもこの件で非難されています。今のところ、Appleが倫理に反する行為を行ったと主張する人はいません。
これは、出版社が、どの企業でもそのデータについて法学修士(LLM)をトレーニングすれば良いと思っているということではないが、今のところ、これをすべて合法的に行っているのは Apple だけかもしれない。