スキル紹介: Webクローリング
Pythonを使ったWebクローリングのスキル、経験があります。
Suumoの物件情報をスクレイピングしてデータを保存する事例を紹介します。
詳細
使用ツール
- Python
- Scrapy
- Django
クローリング
渋谷区の賃貸物件情報をスクレイピングするケースを考えます。
サンプルとして物件数が300程度となるような検索条件としています。 このため、表示ページ数は「表示件数: 50件」の場合に6ページ分となります。
プログラムを作成し、クローリングを実行している様子です。
クロール先サイトに負荷をかけないよう待機時間を設けています。
最後のページ数は「6」であるため、 page=6
に到達してクロールを終了させています。
これはクロール結果を元に判別して自動制御しています。
したがって、他のサイトの場合でも汎用的にクローリングを実装することが可能です。
データ保存
上記までで行ったSuumoのクロール結果をデータとして保存し、Webブラウザの管理画面で確認することができます。 これはDjangoを用いたWebアプリケーションとして実装しています。
上記はサンプルアプリケーションですが、実際の用途に合わせて柔軟にカスタマイズ可能です。
以上です。