Skip to main content

标签: 循环抓取

scrapy递归抓取网页数据

在使用scrapy抓取网页的数据的过程中,我们会遇到一个问题就是,如何来抓取分页,有时候又不能一下子把所有的分页都获取过来。这里的解决问题的思路是,获取每个当前抓取页面的下一页链接,并将链接加入要抓取的url列表中,如下是实例代码 def parse(self, response):         items = []         validurls = []         newurls = response.xpath(            ...[…]

Read More