
近年、悪意あるボットによるスクレイピング攻撃が増加傾向にあります。競合他社による価格情報の不正取得、大量のID・パスワードを使った不正ログイン(クレデンシャルスタッフィング)、AI学習データを目的とした無差別なデータ収集など、その被害は多岐にわたります。
本記事では、スクレイピングの仕組みや主な手口、実際の被害事例を整理したうえで、robots.txtからレートリミット・CAPTCHA・WAF導入まで、有効な対策を網羅的に解説します。
スクレイピングとは
スクレイピングとは、プログラムが自動でWebサイトにアクセスし、データを収集する技術です。正当な用途でも広く使われている一方、悪用されるケースも増えており、自社サイトへの脅威として注目されています。ここではスクレイピングについて紹介します。
スクレイピングの仕組み
スクレイピングとは、プログラムが自動でWebサイトにHTTPリクエストを送信し、返ってきたHTMLを解析してデータを抽出する技術です。通常のブラウザアクセスと同じ仕組みを利用するため、見た目上は「普通のアクセス」と区別がつきにくい点が特徴です。
混同されやすい「クローリング」はサイトを巡回してページを特定する行為であり、スクレイピングはそこからデータを抽出する行為を指します。実際の攻撃では、この2つを組み合わせた手法が一般的です。
スクレイピングが使われる用途
スクレイピングには正当な用途と悪用される用途の両面があります。正当な用途としては、価格比較サイトによる商品情報の自動収集、研究目的でのデータ収集、SEOツールによる自社サイト情報の定期取得などが挙げられます。
一方で悪用されるケースも少なくありません。競合他社の価格情報の不正取得、大量のメールアドレス・個人情報の収集、AIモデルへの無断データ提供などが問題となっています。同じ技術が合法・違法の両面で使われうる点が、対策を複雑にしています。
スクレイピングの違法性
スクレイピング自体は、法律で一律に禁止されているわけではありません。ただし、以下のような場合には法律に抵触するリスクがあります。
- 不正アクセス禁止法:認証を回避してアクセスした場合
- 著作権法:コンテンツをそのまま無断複製・公開した場合
- 不正競争防止法:営業秘密にあたる情報を取得した場合
- その他利用規約違反:AmazonやXなど、スクレイピングを明示的に禁止しているサービスへのアクセス
違法かどうかはアクセスの方法や目的、取得した情報の扱いによって判断が異なります。「スクレイピングだから問題ない」と一概に判断できない点には注意が必要です。
スクレイピングの主な手口
Webスクレイピングの手口は年々高度化しており、単純なボットから人間の操作を模倣した高度なツールまで、さまざまな方法が用いられています。ここでは、代表的な4つの手口を紹介します。
単純なHTTPリクエストによる手口
最も基本的な手口が、PythonのRequestsライブラリやBeautifulSoupを使って静的なHTMLを直接取得する方法です。JavaScriptを使わないシンプルなサイトや、APIエンドポイントが外部に露出しているサイトが標的になりやすい傾向があります。
短時間に大量のリクエストを送ることでサーバーに過負荷をかけ、サービス障害を引き起こすケースもあります。
ブラウザ自動化ツールを悪用した手口
SeleniumやPlaywright、Puppeteerといったブラウザ自動化ツールを使い、実際のブラウザ操作を模倣する手口です。
JavaScriptが必要なSPAやログイン後のページにもアクセスでき、通常のブラウザと見分けがつきにくい点が特徴です。単純なUAフィルタでの検知が難しく、CAPTCHAの突破にも悪用されるケースがみられます。
プロキシ・IPローテーションを使った手口
攻撃者が数百〜数千のIPアドレスを使い回すことで、IPブロックをすり抜ける手口です。一般家庭のIPアドレス(レジデンシャルプロキシ)を経由することで検知がさらに難しくなります。
クラウドサービスや海外のVPSを経由するケースも多く、地理的なアクセス制限も回避されやすい点が課題となっています。
偽CAPTCHAを悪用した手口
本物のCAPTCHAに見せかけた偽の認証画面をユーザーに表示し、マルウェアのインストールや認証情報の入力へ誘導する手口です。
スクレイピングの前段階として正規ユーザーのアカウント情報を不正取得するフィッシング的な使われ方が問題となっており、IPAの「情報セキュリティ10大脅威 2025」でも注意が呼びかけられています。
スクレイピングによる被害事例
スクレイピングや悪意あるボットによる被害は、情報窃取からサービス障害まで幅広い範囲に及んでいます。ここでは、実際に発生している代表的な3つの被害事例を紹介します。
事例① クレデンシャルスタッフィング攻撃(リスト型攻撃)
クレデンシャルスタッフィングとは、スクレイピング等で収集した大量のID・パスワードをボットで自動入力し、不正ログインを試みる手口です。国内でも通販・ECサイトへのなりすまし注文や不正購入の被害が相次いでおり、警察庁「令和7年におけるサイバー空間をめぐる脅威の情勢等について」でもリスト型攻撃が深刻な問題として取り上げられています。正規の認証情報を使うため通常のログインとの区別がつきにくく、被害に気づきにくい点が厄介です。
事例② ECサイトへの不正アクセス・カード情報窃取
ボットによる自動探索でECサイトの脆弱なエンドポイントを発見し、ペイメントアプリケーションを改ざんしてカード情報を窃取するWebスキミングも確認されています。経済産業省の「クレジットカード・セキュリティガイドライン」でも深刻な脅威として取り上げられています。
改ざんに気づかないまま長期間放置されるケースもあり、発覚時には数万件規模の個人情報・カード情報が流出していたという事例も報告されています。
事例③ AIボットによる大規模スクレイピングとサービス障害
AI学習データの需要急増を背景に、大規模ボットによるスクレイピングがWebサービスのサーバー負荷を急増させ、サービス障害を引き起こすケースが増加傾向にあります。X(旧Twitter)が2023年に受けたAIボットによる大量スクレイピングはその代表例として知られています。
IPA「情報セキュリティ10大脅威 2026」でも、AIを悪用した攻撃の高度化・自動化がスクレイピング被害拡大の背景として指摘されています。
スクレイピングに有効な対策とは
スクレイピング攻撃への対策は、単一の手法だけでは効果が限定的です。複数の対策を組み合わせることで、ボットの検知精度と防御の強度を高めることができます。ここでは、代表的な6つの対策を紹介します。
robots.txtの設定
robots.txtとは、Webサイトのルートディレクトリに設置するテキストファイルで、クローラーに対してアクセスの可否を伝える仕組みです。
Googleなどの正規クローラーはrobots.txtを尊重しますが、悪意あるボットは無視するケースが多く、これだけで攻撃を防ぐことはできません。あくまでアクセス制御の入口として位置づけ、他の対策と組み合わせることが重要です。
レートリミット
レートリミットとは、特定のIPアドレスや接続元から一定時間内に送信できるリクエスト数に上限を設ける対策です。異常に高頻度なアクセスをボットとして検知・制限できます。
初歩的なスクレイパーには有効ですが、プロキシIPローテーションを使うボットには回避される場合もあるため、IPブロックやUA検証と組み合わせた運用が推奨されます。
IPアドレスのブロック
アクセスログを分析し、短時間に大量リクエストを送信しているIPや既知の悪性IPをブロックする方法です。データセンターやVPSのIPレンジ単位でのブロックも有効です。
ただし、レジデンシャルプロキシを使われると検知が難しくなるため、IPブロック単独には限界があります。定期的なブロックリストの更新と、他の検知手法との組み合わせが求められます。
ユーザーエージェント(UA)の検証
HTTPリクエストに含まれるUA情報を検証し、スクレイピングライブラリの特徴的な文字列(例:Python-requests)などをフィルタリングする方法です。低度な攻撃には一定の効果がありますが、SeleniumなどによるUA偽装には突破されやすい点が課題です。
UA検証単独での判定は危険なため、行動分析など他の指標と組み合わせた多層的な判定が必要です。
CAPTCHAの導入と偽CAPTCHAへの注意
CAPTCHA(reCAPTCHAなど)は、人間であることを確認するチャレンジを課すことで、ボットによる自動アクセスを抑制する仕組みです。
一方で、偽CAPTCHAを使ってマルウェア感染や認証情報の詐取を狙う攻撃も増えており、IPAも注意を呼びかけています。正規のCAPTCHAサービスの使用と、ユーザーへの周知を組み合わせることが重要です。
WAF(Web Application Firewall)の導入
WAFは、Webアプリケーションへの通信をリアルタイムで監視・解析し、ボットや不正なリクエストを自動的に検知・遮断するセキュリティ対策です。IPブロック・UA検証・レートリミット・シグネチャマッチングなどを統合的に実行できる点が特徴で、スクレイピング対策の中核として機能します。
特にクラウド型WAFは最新の攻撃パターンへの対応が自動更新され、専門知識がなくても導入・運用しやすい傾向にあります。
以下の記事ではWAFの4製品を比較しています。あわせてお読みください。
【2025年版】WAFのおすすめ4製品を比較!機能や価格をわかりやすく紹介
まとめ
スクレイピング攻撃は、クレデンシャルスタッフィングやWebスキミング、AIボットによるサービス障害など多様な被害につながります。robots.txtやIPブロック・UA検証といった個別手法は有効ですが、単独では限界もあります。これらを組み合わせた多層防御の中核となるのが、WAFの導入です。
「Cloudbric WAF+」は、WAF・ボット対策・DDoS防御・API保護を統合したクラウド型WAFです。AIによる自動検知で未知の攻撃にも対応し、専門知識がなくても導入・運用が容易です。
スクレイピング対策の強化をお考えの方は、ぜひお気軽にお問い合わせください。