利用第三方平台crawlera做scrapy爬虫防屏蔽

crawlera官方网址：http://scrapinghub.com/crawlera/

crawlera帮助文档：http://doc.scrapinghub.com/crawlera.html

1，注册一个crawlera账号并激活

2，登录网站获取App Key

3，激活crawlera这里注意一下，别搞错了，搞成Cloud就混淆了，我就是，哎文档没好好看，其实就是选择一个

crawlera进行激活就好了，我选择了最小的那个，以为开始看到了里面要收钱的，所以没敢点击，没想到是，后面

使用的时候，还是可以的用的

进行完上面的操作就可以在程序里面加代码了

1，安装scrapy-crawlera

pip install scrapy-crawlera

2，修改配置文件添加如下配置信息

DOWNLOADER_MIDDLEWARES = {
    'scrapy_crawlera.CrawleraMiddleware': 600
}
CRAWLERA_ENABLED = True
CRAWLERA_USER = '<API Key>'
CRAWLERA_PASS = 'crawlera的密码'

根据官方文档的提示

我还加入了如下的配置，保证了我数据的正确获取,就我测试的观察，下面的配置，会使得程序能够自动的去获取数据，知道获取到正确的数据为止

CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 32
AUTOTHROTTLE_ENABLED = False
DOWNLOAD_TIMEOUT = 600

好了，就这些，开始吧 crawl吧。

参考文章：
http://www.cnblogs.com/rwxwsblog/p/4582127.html

利用第三方平台crawlera做scrapy爬虫防屏蔽

版权声明