悪質クローラーが使う「レジデンシャルプロキシ」の正体と、彼らが商用LLMを避ける理由：『Jailhouse Lock』試作案

はじめに

以前の記事で、私は「レジデンシャルプロキシ」という技術について簡単に触れました。

通常、ハッカーやスクレイピング（自動データ収集）ボットは、データセンター（AWSやGCP、あるいは筆者が利用しているようなVPSなど）のIPアドレスからアクセスを行います。しかし、データセンターのIPは「ボットっぽい」として比較的簡単に判別できるため、サイト運営者側にブロックされやすいという弱点があります。

そこで生まれたのが、「一般家庭の回線を経由すれば、普通の利用者のアクセスに見えるのではないか」という発想です。

調べ始めた当初は、単なる技術的な小細工だと思っていました。

しかし、調査を進めるほど、この技術の背後には想像以上に大きな市場と、現在のAI開発競争とも密接に結びついた構造があることが見えてきました。

今回は、レジデンシャルプロキシとは何なのか。そして、なぜそれほど高額な費用を払ってまで利用されているのか。その背景について掘り下げてみます。

レジデンシャルプロキシとは何か

レジデンシャルプロキシ（Residential Proxy）とは、一言で言えば、

「一般家庭のリアルなインターネット回線を身代わりにしてアクセスする技術」

です。

通常、スクレイピング業者やボット運営者は、自前で契約したサーバーから標的のサイトへアクセスします。

しかし、これらのアクセス元はデータセンターのIPアドレスです。

サイト運営者から見れば、

AWS
GCP
Azure
Oracle Cloud
各種VPS事業者

といった「いかにも機械的なアクセス元」であることが分かるため、比較的容易に検知・遮断できます。

この検知・遮断回避のために利用されるのがレジデンシャルプロキシです。

プロキシ事業者は、スマートフォンアプリや無料ソフトウェアなどを通じて集めた世界中の一般家庭の回線を中継地点としてネットワーク化します。

そのネットワークを経由することで、

東京の一般家庭の光回線
地方都市のケーブル回線
誰かのスマートフォン回線

からアクセスしているように見せかけることができます。

サイト運営者からすると、

「本物の利用者」と「大量データを収集しているクローラー」

の区別が非常に難しくなります。これこそがレジデンシャルプロキシの厄介な点です。

では、誰がそんなものを使うのか？

レジデンシャルプロキシは決して安くありません。

調査したところ、おおよそ以下のような価格帯になっています。

グレード	相場
格安系	$1～2/GB
中堅	$3～5/GB
大手・法人向け	$5～10/GB
特殊用途（モバイル等）	$8～20/GB以上

参考までに比較すると、

VPS → 月500～2,000円程度
クラウドサーバー → 月数千円程度
レジデンシャルプロキシ → 月数万円～数十万円規模

という世界です。

普通に考えれば、

「そこまでして何をしたいのか？」

主な利用者として挙げられるのは、

大量のデータ収集を行うスクレイピング業者
チケットや限定商品の買い占めを行うBot運営者
市場調査や価格監視を行う業者
AI学習用データを収集する事業者

などです。

彼らに共通するのは、

「ブロックされずに大量のアクセスを続けたい」

という一点です。そして調査を進めるうちに、私はあることに気付きました。彼らが集めているのは、転売や市場調査だけに使われるデータではありません。

その背後にはもう一つの巨大な需要源――AI開発競争があります。

レジデンシャルプロキシとAI開発競争

現在のAIは膨大なデータを必要とします。

文章
画像
コード
掲示板の書き込み
ブログ記事

ありとあらゆる人間の創作物です。しかし近年、多くのサイト運営者やメディアは、「勝手にAIの学習データにされること」を嫌い始めています。

個人ブログレベルであれば、robots.txt による制限やAIクローラーの拒否設定、あるいは筆者が行っているようなアクセス制御の強化で対応できるかもしれません。大手の組織や企業ともなれば、CDN（Cloudflare等）を用いた堅牢なシステムレベルでの防御を展開しています。

それに対して、上記のブロックをどうにか突破したい悪質なAI開発者が利用するのがレジデンシャルプロキシです。

何気なく書いたブログ記事。
趣味で公開した技術メモ。
SNSへの投稿。

こうした「なんてことない」情報を一般利用者のように見せかけながらサイトを巡回し、必要なデータを回収し、より知識を高めていくのがAI業者というわけです。

なぜ彼らは商用LLMを使いたがらないのか

大量に集めたデータを整理するなら、GPTやClaudeのような高性能な商用LLMを使えば良いのではないかと考えるでしょう。

これには以下の壁が立ちはだかります。

1. コストという壁

まず費用の問題があります。

数百万ページ単位のデータを処理する場合、API料金は決して無視できません。ただでさえ高価なレジデンシャルプロキシを維持しながら、さらに商用AIの利用料まで支払う。

収集量が増えるほど、この負担は大きくなります。

2. 利用規約という壁 (倫理フィルターの不在):

次は利用規約。商用LLMには「著作権侵害の恐れがあるデータ」や「暴力・倫理的にグレーなデータ」を処理させようとすると、AI側が自主的に出力を拒否する仕組み（セーフティフィルター）があります。規約違反によるアカウントBANのリスクもあるため、彼らは「検閲もセーフティーフィルターもないローカルLLM」に、収集した剥き出しのデータをそのまま放り込みたいのです。

ローカルLLMという抜け道

そこで登場するのがローカルLLMです。Llama系モデルやMistral系モデルなどのオープンソースLLMを、自前のGPUサーバーで動かします。

これにより

利用規約を気にしなくてよい（イリーガルな情報を堂々とぶち込める）
外部サービスに依存しない（GoogleやX等の検閲を逃れられる）
API料金が発生しない
大量処理に向いている

という環境が手に入ります。つまり、彼らが求めているのは、必ずしも「世界最高性能のAI」ではありません。大量のデータを、安価に、好きなだけ処理できるAIです。

その意味でローカルLLMは非常に相性が良いのです。

そして、防御側はどうするのか

ここまでの話をまとめると、

攻撃側は

レジデンシャルプロキシで一般利用者に偽装する
ローカルLLMで大量のデータを処理する

という組み合わせを手に入れています。

これは従来の防御手法にとって厄介な相手です。(もちろん、レジデンシャルプロキシ自体は市場調査や広告検証など合法用途にも使われています。しかし、防御側から見ると“実利用者と区別しにくい”という性質そのものが脅威になります)

IPアドレスを見ても一般家庭。AIも外部サービスではなく自前運用。従来のように「怪しいIPを遮断する」だけでは対応しきれません。

なので、筆者は発想を変えました。

これまでの防御は、「侵入を防ぐ」ことが目的でした。

けれど相手が一般利用者の仮面を被っているなら、侵入そのものを完全に防ぐのは難しいです。

ならば、

「侵入は許す。その代わり、持ち帰るデータに細工をする」

という考え方を試してみます。筆者が既に行っているNepenthesトラップの発展形です。これを更に推し進め

AIに考えさせる。
AIに迷わせる。
AIに時間と計算資源を浪費させる。

そして最終的に、持ち帰ったデータそのものを信用できなくする。

私が試作しているのは、そんな「AI向けの檻」です。

仮称ではありますが、その仕組みを私は

Jailhouse Lock（元ネタはもちろん『ストーンオーシャン』です）

と呼んでいます。もちろん、AIを本当に閉じ込める魔法があるわけではありません。

狙いはもっと現実的です。

相手のデータ収集パイプラインに余計な処理を強制し、推論コストと収集効率を悪化させることです。

現在、自腹で運用しているVPSの帯域を少しでもクリーンにしたいという思いもあり、レジデンシャルプロキシを相手取るためのトラップを試作しています。

この対AI防衛システム『Jailhouse Lock』の具体的な実装案については、どこかの記事で詳しくご紹介しようと思います。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30