Skip to main content

归档: 2015-10月份

scrapy 1.0.3版本 Selenium Phantomjs Downloader Middleware

一直想找的这个东西Middleware,找了很久,有的是一个过期的,有的是要弹出什么框的,这里给scrapy最新版本的解决方案。此方案排除了几个问题:Message: 'Can not connect to GhostDriver'对于此问题像下面这样操作就好了:driver = webdriver.PhantomJS(port=port,                              desired_capabilities={                            ...[…]

Read More

scrapy递归抓取网页数据

在使用scrapy抓取网页的数据的过程中,我们会遇到一个问题就是,如何来抓取分页,有时候又不能一下子把所有的分页都获取过来。这里的解决问题的思路是,获取每个当前抓取页面的下一页链接,并将链接加入要抓取的url列表中,如下是实例代码 def parse(self, response):         items = []         validurls = []         newurls = response.xpath(            ...[…]

Read More