「競合他社の価格を毎週手動で確認するのに2時間かかっている」「業界ニュースを毎朝チェックしてチームに共有するのが大変」「求人サイトで競合の採用動向を追いたいが調査が追いつかない」——こうした情報収集の作業はClaude Codeで自動化できます。ウェブスクレイピングとは、ウェブサイトから自動的にデータを収集する技術です。Claude Codeを使えば、この技術を活用するPythonスクリプトをプログラミング知識なしに作れます。ある商社では、Claude Codeで競合価格の自動収集を実現して、毎週の市場調査にかかっていた8時間を30分に削減した実績があります。この記事では、合法的なスクレイピングの基礎から実践的な活用例まで解説します。
目次
- スクレイピングとは何か(合法・違法の境界線)
- Claude Codeでスクレイピングを実装する基礎
- 競合価格の自動収集:ECサイトの価格を毎日比較
- 業界ニュースの自動収集:重要情報をSlackに自動配信
- 求人情報の自動収集:競合の採用動向を把握する
- スクレイピングのトラブルシューティング
- 倫理・法律面で守るべきルール
1. スクレイピングとは何か(合法・違法の境界線)
ウェブスクレイピングは、ウェブサイトのページを自動で取得してデータを抽出する技術です。検索エンジンがウェブページを巡回する仕組みと基本的に同じです。
適切に実施すれば合法的な技術ですが、誤った方法で行うと利用規約違反や法律違反になるリスクがあります。次の基準で判断します。
合法的に実施できるケース
- 一般公開されているページの情報を収集する
- サーバーに過度な負荷をかけない(1回のリクエスト後に数秒の待機時間を設ける)
- robots.txtで許可されている範囲のページを対象にする
- 個人情報を含まない情報(価格・ニュース・求人概要等)を収集する
避けるべきケース
- ログインが必要なページのデータを許可なく収集する
- 短時間に大量のリクエストを送ってサーバーに負荷をかける
- 利用規約でスクレイピングを明示的に禁止しているサイトから収集する
- 著作権のあるコンテンツをそのまま転用する
Claude Codeに「〇〇サイトをスクレイピングするコードを作ってください」と依頼すると、robots.txtの確認や適切な待機時間の設定を含むコードを生成してくれます。
2. Claude Codeでスクレイピングを実装する基礎
スクレイピングの基本的な仕組みを理解してから、Claude Codeでの実装方法を説明します。
スクレイピングの流れ
- ウェブサイトのページを取得する(HTTPリクエスト)
- ページのHTML(ウェブページの設計図)を解析する
- 必要な情報が書かれている部分を特定して取り出す
- データを整形して保存する(スプレッドシート・データベース等)
Pythonでよく使われるスクレイピングライブラリを紹介します。
| ライブラリ | 特徴 | 向いている用途 |
|---|---|---|
| BeautifulSoup | シンプルなHTML解析 | 静的なページのデータ取得 |
| Selenium | ブラウザを自動操作 | JavaScriptで動く動的なページ |
| Playwright | 最新の高速ブラウザ自動化 | 動的ページ・ログイン後のページ |
| Scrapy | 大規模な収集に対応 | 多数のページを効率的に収集 |
Claude Codeは用途に応じて適切なライブラリを選んでコードを生成します。「〇〇サイトの〇〇情報を毎日収集したい」という依頼だけで、ライブラリの選定からコード生成まで対応してくれます。
3. 競合価格の自動収集:ECサイトの価格を毎日比較
自社商品と競合商品の価格を毎日自動収集してスプレッドシートに記録する自動化です。
ある文具卸売業の会社では、10種類の主力商品について3社の競合ECサイトの価格を毎週手動で確認していました。この作業に毎週2時間かかっており、価格変動への対応が遅れることがありました。
Claude Codeへのプロンプト例:
競合価格を毎日自動収集するPythonスクリプトを作ってください。
収集対象:
- 対象URL1(商品Aの価格ページ)
- 対象URL2(商品Bの価格ページ)
※各商品の価格が表示されているURLを列挙する
収集する情報:商品名・価格(税込)・在庫状況
保存先:Googleスプレッドシート(ID: XXXXXXXX)の「価格履歴」シート
形式:日付・商品名・サイト名・価格・在庫状況 の列構成
実行タイミング:毎日9時(macOS LaunchAgentで設定)
自社価格(別シート「自社価格」)と比較して、競合が自社より10%以上安い商品をSlack(Webhook URL: XXX)に通知する
このシステムを導入した結果、週2時間の手動調査がゼロになりました。競合の価格変動をSlackで即座に把握できるようになり、価格対応スピードが大幅に改善されています。
実際に使うには、対象サイトのrobot.txtを確認して収集が許可されているかを確認する必要があります。Claude Codeに「このURLのrobot.txtを確認してスクレイピングが許可されているか教えてください」と依頼すれば確認してくれます。
4. 業界ニュースの自動収集:重要情報をSlackに自動配信
業界に関連するニュースや情報をウェブから自動収集して、毎朝チームのSlackチャンネルに配信するシステムです。
多くの業界ニュースサイトはRSS(更新情報を配信する仕組み)を提供しています。これを使うとスクレイピングよりも簡単かつ確実に最新情報を取得できます。
Claude Codeへのプロンプト例:
業界ニュースを自動収集してSlackに配信するPythonスクリプトを作ってください。
収集元:
- RSSフィード1(業界メディアAのRSS URL)
- RSSフィード2(業界メディアBのRSS URL)
- Google News RSS(検索キーワード「自社の業界キーワード」)
処理内容:
- 過去24時間の新着記事を取得する
- Claude APIで記事を分析して重要度(高・中・低)を判定する
- 重要度「高」の記事だけを抽出する
- 毎朝8時にSlack(チャンネルID: CXXXXXXXX)に一覧を投稿する
- 記事タイトル・要約(2文)・URLを含める
RSSフィードがない場合はBeautifulSoupでサイトを直接収集する
このシステムを使ったコンサルティング会社では、アナリストが毎朝30分かけていたニュースチェック・まとめ・Slack共有がゼロになりました。Slack通知に自動でまとめられた情報が届くため、会議での情報共有の質も上がっています。
RSSフィードがないサイトについては、Claude Codeに「このURLのページをBeautifulSoupで取得して、記事一覧を収集するコードを追加してください」と依頼すれば対応できます。
5. 求人情報の自動収集:競合の採用動向を把握する
競合他社の求人情報を定期的に収集して、採用動向・組織の変化を把握するシステムです。
採用情報は企業の戦略方向性を読む重要な情報です。「エンジニアを大量採用している」「営業職の採用をやめた」「特定の技術スタックを求めている」などの変化は、競合分析に役立ちます。
Claude Codeへのプロンプト例:
競合他社の求人情報を定期収集するスクリプトを作ってください。
対象:IndeedまたはWantedlyで「競合A社名」「競合B社名」で検索した結果
(各サービスのpublic APIまたはrobot.txtで許可された範囲で収集)
収集する情報:
- 職種名・雇用形態
- 必要なスキル・経験
- 勤務地・リモート可否
- 投稿日
保存先:スプレッドシート(ID: YYYYYYYY)
毎週月曜日に新着求人を取得して前週との差分(新規追加・削除された求人)をレポートする
月次でトレンド分析(どの職種が増えているか)をClaude APIで行って結果をNotion(DB ID: NNNNNNNN)に記録する
このシステムを使った人材会社では、「採用コンサルタントが手動で確認していた競合動向調査(月8時間)がほぼ自動化できた」と話しています。取得した情報をClaude APIで分析して「採用トレンドレポート」を自動生成する機能も追加し、毎月のレポート作成時間も90分削減されています。
6. スクレイピングのトラブルシューティング
スクレイピングの実装でよく起きる問題と対処法を整理します。
サイトの構造が変わってデータが取れなくなる
ウェブサイトはデザインやHTML構造を変更することがあります。その際、スクレイピングコードが動かなくなります。「このURLでスクレイピングを実行するとエラーが出るようになりました」とエラーメッセージをClaude Codeに貼り付ければ、修正コードを生成してくれます。
動的ページでデータが取れない
JavaScriptで動くページ(スクロールして初めて表示されるデータなど)は、BeautifulSoupでは取得できないことがあります。Claude Codeに「このページはSeleniumかPlaywrightが必要ですか?」と確認すれば、適切な方法を提案してくれます。
IPアドレスがブロックされる
短時間に大量のリクエストを送ると、サーバーからブロックされることがあります。Claude Codeに「各リクエストの間に3〜5秒の待機時間を追加してください」と依頼すれば対処できます。
7. 倫理・法律面で守るべきルール
スクレイピングを行う際に必ず守るべき原則をまとめます。
robots.txtを確認する: サイトのrobot.txtには、クローラーに対してどのページを収集して良いかが書かれています。/robots.txt をURLに追加してアクセスすれば確認できます。
利用規約を確認する: サイトの利用規約で「データの自動収集禁止」と明記されている場合は、そのサイトのスクレイピングは避けます。
個人情報を収集しない: 氏名・住所・メールアドレスなどの個人情報を含むデータは、目的や保存・利用に関して厳格なルールがあります。個人情報を収集する場合は専門家への確認を推奨します。
サーバーへの負荷を最小化する: 1秒に1回以下のリクエスト頻度を目安にします。Claude Codeが生成するコードには、デフォルトで適切な待機時間が含まれています。
Claude Code道場では、ウェブスクレイピングの自動化を実践演習で学べます。「競合調査の手作業をなくしたい」「業界情報を効率的に収集したい」という方が、法律・倫理を守りながら実用的なデータ収集を自動化できるカリキュラムを提供しています。ぜひClaude Code道場で学んでみてください。



