Scrapy:WEBページの情報を自動取集!!クローリング&スクレイピングフレームワーク

2016/10/16 に公開
視聴回数 6,785
0
0
Scrapyとは ※(動画中ではスクレイピーと呼んでしまっていますが、正しくはスクラピーのようです https://www.youtube.com/watch?v=Zfcukqxvia0&lc=z12xxdayxk3gixjyx04cippgxuanjve5zdk)
pythonで書けるWebクローリング&スクレイピングフレームワーク
クローリング:Webページのハイパーリンクを辿って次々にWebページをダウンロードする作業。
スクレイピング:ダウンロードしたWebページから必要な情報を抜き出す作業。
http://orangain.hatenablog.com/entry/scrapy

公式 : https://scrapy.org
ドキュメント : https://doc.scrapy.org/en/latest/

scrapy1.1からPython3に対応。
更にunicode escape されて読めなかった日本語文字がコマンドラインで表示されるように
http://orangain.hatenablog.com/entry/scrapy1.1

Scrapy Cloud というクラウドサービスで管理することもできる。
自動でデプロイして定期的に実行してくれる。
公式 : https://scrapinghub.com/scrapy-cloud/
使い方をまとめてくれてる : http://data.gunosy.io/entry/python-scrapy-scraping

実際にやってみた
マイリトルポニーのキャラクター名をwikipediaから取ってくる
https://github.com/monisoi/poney_scraper

今回クローリングしてません。すみません...
Spiderを作成
GoogleChromeによるXPathの取得方法
jsonで出力