首页 » 正文

Scrapy "Filtered duplicate request" 结束运行

今天在使用scrapy做数据抓取,抓取的过程中,突然就停止了。看了下最终的结果

2016-04-09 11:58:03 [scrapy] DEBUG: Filtered duplicate request: <GET http://weibo.com/sorry?userblock&is_viewer&code=20003> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)

我也不清楚『Filtered duplicate request』这个是啥错误。

于是google了一下,加了下参数

dont_filter=True

结果最终的请求方法就改成这样子了,终于起作用了。

yield scrapy.Request(
    info_url,
    cookies=self.cookie,
    callback=self.parse_info,
    dont_filter=True,
    meta={
        'item': item,
        'date': meta_data['date'],
        'weibo_id': meta_data['weibo_id']
    }
)