概要:新型AI自動化プラットフォーム「Paprika」とは?
現Xで見かけてしまったツール、Paprika。
Paprikaは、分散ワーカー上のChrome(実ブラウザ)をPlaywright経由で操作し、LLM/Vision(AI)を使ってページ内の画像・動画・構造化データを根こそぎ剥ぎ取る、極めて執拗な自動化プラットフォームです。
なぜ「趣味が悪い」のか:
- 境界線の蹂躙:
- ログイン必須サイトや年齢確認、JavaScript描画など、管理者が明示的に引いた「機械的な巡回を拒む壁」を、クッキー偽装やセッション維持で強引に突破することを目指している点。
- 品性のない執着:
- CSSの変更によるクローラー避けが効かない。AIが「人間の目で画面を見て」ボタンを探し、クリックしてくるため、これまでの構造的な防護策を無効化しようとする点。
- 他者リソースへの強欲な寄生:
scroll=Trueで遅延ロードを発火させ、画像や動画ストリームを「丸ごと一括ダウンロード」するため、サーバーの帯域やCPU(コスト)に莫大な負荷をかける点。
- リーガルリスク: 「正当な目的のための自動化」を気取っている連中であるため、下手に通信を拒否(403等)したり速度制限をかけたりすると、「正当なアクセスを妨害された」などと言いがかり(難癖)をつけてくる厚顔無恥なリスク.
悪用できる建前
仕様書には「利用規約の遵守」や「正当な目的での利用」と美しく免責事項が書かれていますが、提供されている機能はあきらかに「大量かつ高速なコンテンツのブッコ抜き」を目的としています。この「建前と本音の圧倒的なギャップ」が「趣味が悪い」と断じた理由です。
一般的なクローラー(Googlebotなど)は、robots.txt のルールを守り、正体を名乗って巡回します。
しかしPaprikaは、JavaScriptの完全実行、遅延ロード(スクロール動作)への追従、Cookieの永続化による会員限定ページの突破を平然と行います。
サイト側が「毎日ボタンの配置(CSS)を変える」といったボット対策をしても、AIエージェントがそれを学習して乗り越えてきます。さらに、分散IPで「一見、たくさんの一般ユーザーが同時にアクセスしてきた」ように見せかけるため、従来のWAFやIP制限が非常に効きにくいのが最大の問題です。
AIエージェントが画面スクロールや walk(サイト内巡回)を繰り返すことで、一般ユーザーの快適な閲覧環境を圧迫する、一種のDoS状態のツールです。
3. ここからサイトを護るための「Apacheの防衛」
以下、筆者環境です。
- Apache
- mod_rewrite
- Ubuntu 24.04
の2つがあれば基本的には対処可能です。ApacheのMod_rewriteは、アーミーナイフのような問題です。
sudo a2enmod rewrite
sudo systemctl reload apache2.service
ステップ1:User-Agentによる水際対策(デフォルトを即座に切って捨てる)
彼らがもしデフォルトの名称(PaprikaやPlaywright)をUser-Agentに残して突っ込んできた場合、もっとも軽量な処理で済みます。
apacheの.confファイルに以下を突っ込んでおきます。
# ─── 層1: 既知のAI自動化ツール・ライブラリのUAを拒否 ───
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (paprika|Playwright|Stagehand|Browser-Use|Browserable) [NC]
RewriteRule ^ - [F,L]
</IfModule>
ステップ2:利用規約(ポリシー)の明文化(法的な盾)
「言いがかり」を完全に無力化するため、サイトのフッター等に「AIエージェントや実ブラウザ偽装による一括ダウンロードをDoS行為とみなし、検知した場合は即座にアクセス制限を適用する」旨を記載しておきましょう。
そもそも、上記のDoSツールを使ってくるものが「正常な閲覧者」である理由はありません。
ステップ3:robots.txtを逆手に取った「404ハニートラップ」
robots.txtに罠を仕掛ける:
まともなクローラーは rogotx.txt に書かれたDisallow を守ります。しかし、こんな輩がこれを律儀に守るということはまずありません。
そこで、それを逆手に取り、品性のないAIエージェントだけを炙り出すための罠のパスを設定します。
robots.txtに以下のような罠を設けておきます。
User-agent: *
Disallow: /assets-archive/
悪意あるクローラーは「robots.txtにわざわざ書くということは、ここに大事な情報があるに違いない」と判断します。
- Apache(.htaccess または .conf)に罠の行き先を刻む:
踏んだクローラーに対し、403(拒否)ではなく「404(存在しない)」を返すことで、「そんなものはありません」と先んじておきます。
# robots.txtを無視して歩き回る(walk)AIエージェントへの罠
<IfModule mod_rewrite.c>
RewriteEngine On
# robots.txtで禁止した領域に足を踏み入れた者は、一律で404(Not Found)
RewriteRule ^assets-archive/?$ - [R=404,L]
</IfModule>
4. まとめ
「正当な目的」を謳えば他人のリソースを奪えばいいというツール。
崇高な目的とやらにDoSツールをばらまくというその厚顔無恥ぶりは『メリー・ポピンズ』の
Not at all attractive to my way of thinking
この言葉を借りるまでもなく悪趣味の一言。
Web管理者側もただ怯えるのではなく、相手の仕様の「執着」を逆手に取り、エレガントに虚無(404)へ引きずり込む防衛術がお役に立てれば幸いです。