robots.txtを無視してデータを盗むことに対する困惑の防御

robots.txtを無視してデータを盗むことに対する困惑の防御

2024年に、Perplexity社がウェブサイトのブロックを積極的に回避してコンテンツをスクレイピングしていたことが発覚した。新たな報告書によると、同社がこの行為を擁護する一方で、手口はますます巧妙化し続けていたという。

ApplebotがApple Intelligenceの学習に必要なデータを取得するために何年もウェブをクロールしていたことが発覚し、Appleは大きな反発を受けました。ウェブサイトは即座にこのbotをブロックし、他のボットもブロックしました。この動きは、AI企業の活動方法に関する興味深い発見につながりました。

1年が経過した現在も、少なくとも1つの企業がrobots.txtを無視し、ウェブページをスクレイピングするためにあらゆる手段を講じています。その1つがPerplexityです。Cloudflareのレポートによると、Perplexityはウェブ上で期待される信頼性を損なうために複数の手法を用いており、大規模な言語モデルのトレーニングに必要なデータにアクセスしています。

テストは、これまでスクレイピングされたことのない新しいウェブサイトを作成し、Perplexity AIにそれらについて質問することで実施されました。クロールボットがクロールしないように指示するrobots.txtファイルに遭遇すると、異なるブラウザエージェント、IPアドレス、さらには新しいASNを持つ新しいボットが現れました。

その後、Perplexityはウェブサイトでしか入手できない情報を提供することができました。この新しいボットはラベル付けされておらず、IPアドレスもPerplexityの公式IPアドレス範囲に含まれていなかったにもかかわらず、Perplexityがボットを操作していることは明らかでした。

この手法により、新しいボットがアクセスできた場合、データが最も正確であることが示されました。新しいボットが新しいウェブページでもブロックされた場合、Perplexity AIの結果はより具体的でなくなるか、完全に幻覚的なものになります。これは、新しいボットが実際にPerplexityに情報を提供していたことを示しています。

古いニュース、新しい詳細

Cloudflareの報道は、チャットボットとそのデータ取得方法への注目を再び高める一因となっています。とはいえ、新しいASNに関する詳細を除けば、Cloudflareの調査結果は、 2024年6月にWiredとRobb Knightが報じた内容とほぼ同じです。

Perplexityは態度を変えず、むしろrobots.txtを回避する新たな方法を模索しているようだ。robots.txtは、評判の良い企業がウェブサイトにアクセスしてデータをスクレイピングするのを阻止するための、信頼に基づく行為である。

Apple、Google、ChatGPTなどの企業はrobots.txtを尊重していますが、Perplexityはこれまでも、そしてこれからも尊重しません。robots.txtには法的根拠はありませんが、競合他社と比べて、同社を怪しく信頼できない企業として位置づけています。

色鮮やかに輝く連結ループが、黒い背景に対称的な星のような形を形成します。

Apple Intelligenceはrobots.txtを尊重。画像提供:Apple

少なくとも、Perplexityの評判は損なわれ、Appleとの買収交渉にも悪影響を及ぼす可能性があります。Appleは自社の基盤モデルチームに自信を持っており、Apple Intelligenceを「救う」ために買収を検討するつもりはなさそうです。

この状況についてPerplexityのAIチャットボットに問い合わせたところ、Cloudflareのウェブサイトから収集したレポートを忠実に再現しただけでした。しかし、Perplexityのブログには月曜日に驚くべき新しい記事が掲載され、同社のアプローチを奇妙にも擁護しています。

困惑がCloudflareに反撃

予想通りの展開となったが、Perplexityは自社の行動について防御的な姿勢を取り、自社のウェブスクレイパーとAIエージェントは別物だと主張した。同社は、Cloudflareが両者を区別できないことを非難し、同社をオープンウェブへの脅威と呼んでいる。

この論争は、Cloudflareのシステムが正当なAIアシスタントと実際の脅威を区別するのに根本的に不十分であることを明らかにしています。役に立つデジタルアシスタントと悪意のあるスクレイパーを区別できないのであれば、正当なウェブトラフィックとは何かを判断するべきではないと言えるでしょう。

もちろん、こうした主張は馬鹿げています。人間は自由でオープンなウェブを巡回しており、ウェブサイトがAIチャットボットにコンテンツを盗まれることを望まないのは、全く正当な懸念です。

404 Mediaの最近のレポートによると、Googleがユーザートラフィックをソースに誘導しなくなったことで、AIデータスクレイパーがインターネットを破壊したことが明らかになっています。Ars Technicaも同様のレポートを発表し、人間によるウェブトラフィックが大幅に減少していることを示唆しています。

Perplexityの主張の問題点は、私たちがそのエージェントをAIの学習のためにデータを吸収するスクレーパーだと誤解していると想定していることです。しかし、問題はそこではありません。Perplexityは、ウェブサイトにアクセスするエージェントは学習にデータを使用していないと主張していますが、robots.txtの本質を完全に見落としています。

オレンジ色の垂直の柱、虹のような効果を生み出す光線、中央の幾何学的なシンボルがある薄暗い廊下。

Perplexityは、オープンウェブを破壊しながらも、セマンティクスが面目を保つと考えている。画像出典:Perplexity

あらゆる種類の自動ウェブクローラーに自分のページを無視するよう指示するウェブサイトは、単に倫理的なトレーニング上の問題を抱えているからそうしているのではなく、自らの生計を守るためにそうしているのです。ユーザーが情報を収集するためにウェブサイトを見る必要が全くないのであれば、人間が運営するウェブサイトは衰退し、消滅するでしょう。

パープレキシティが理解していないのは、人間が運営するウェブがなければ、そのAIは役に立たなくなるということだ。もし人間が全員廃業すれば、スクレイピングできるものは何も残らない。

データが保存されず、学習にも使用されないとしても、AIエージェントは収益を生み出しておらず、ウェブサイトのビジネスモデルを尊重していません。Perplexityは、正義と自由の名の下に、オープンウェブを組織的に破壊するボットを積極的かつ攻撃的に、そして誇りを持って構築しています。

このブログ記事は、Cloudflareの権威を貶めようとしており、悪意のあるクリックベイトか無能さが報告書の発端であると示唆している。結局のところ、同社の公式な対応は恥ずべきものであり、同社が守りたいと主張するすべてのことに反するものだ。

このすべてにおけるAppleの役割

AppleはApple Intelligenceを発表した際、ApplebotがWebから無料で入手可能な情報を収集し、基盤モデルの学習に役立てていたことも明らかにしました。Appleはrobots.txtを遵守していると明言していましたが、ウェブサイト側がAppleがSiriやSpotlight用のデータをインデックスしていると誤解していたことを考えると、これは空約束に過ぎませんでした。

スマートフォンのホーム画面には、さまざまなアプリのアイコン、10 月 22 日を強調表示するカレンダー ウィジェット、抽象的なテクノロジー パターンの暗いグラデーションの背景が表示されます。

Apple は先を急ぎながらも AI 論争からは距離を置く必要がある。

反応は即座に現れ、多くのウェブサイトがrobots.txtを更新し、AppleなどのAIスクレイパーをブロックしました。その結果、フォーブス誌による法的措置の脅迫も相まって、AIデータ収集への注目が高まりました。

Appleは、倫理的に提供されたデータのみを使用していると一貫して主張しています。Applebotの件は残念なことですが、もはや過去の話であり、倫理的に疑問のあるAI企業が溢れる世界において、Appleは相当な自制心を示してきました。

Apple独自のアプローチは、ローカルモデル、再生可能エネルギーで稼働するサーバー上で稼働するプライベートクラウドモデル、そしてユーザーデータやプロンプトによる学習を一切行わないという約束を組み合わせたものです。Appleが人工知能における倫理的な指針であり続けるためには、Perplexity(パープレキシティ)に手を出さないことが重要です。