scrapy框架爬取知乎

参考以下博文:

1.https://cuiqingcai.com/4380.html

2.https://www.cnblogs.com/zhaof/p/7228131.html

文章实现了scrapy框架爬取信息,利用mongodb存储数据。

注意点:

1.在爬取中,要注意robot协议的设置,不然会报40x错误。

2.注意scrapy框架的爬取下一页,各个解析函数功能的设置,利用yield生成器完成相应返回。

3.在scrapy中,既可以在spider中写代码实现相应功能,也可以在setting配置模块中直接填写参数实现功能。

posted @ 2019-02-21 17:21  jianglin_liu  阅读(227)  评论(0编辑  收藏  举报