Skip to content

スキル紹介: Webクローリング

Pythonを使ったWebクローリングのスキル、経験があります。
Suumoの物件情報をスクレイピングしてデータを保存する事例を紹介します。

詳細

使用ツール

  • Python
  • Scrapy
  • Django

クローリング

渋谷区の賃貸物件情報をスクレイピングするケースを考えます。


サンプルとして物件数が300程度となるような検索条件としています。 このため、表示ページ数は「表示件数: 50件」の場合に6ページ分となります。


プログラムを作成し、クローリングを実行している様子です。
クロール先サイトに負荷をかけないよう待機時間を設けています。


最後のページ数は「6」であるため、 page=6 に到達してクロールを終了させています。

これはクロール結果を元に判別して自動制御しています。
したがって、他のサイトの場合でも汎用的にクローリングを実装することが可能です。

データ保存

上記までで行ったSuumoのクロール結果をデータとして保存し、Webブラウザの管理画面で確認することができます。 これはDjangoを用いたWebアプリケーションとして実装しています。


上記はサンプルアプリケーションですが、実際の用途に合わせて柔軟にカスタマイズ可能です。

以上です。