摘要: 项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider 1.明确需要获取的内容(标题,链接),然后把需要获取的内容写到items.py中,通过检查获取内容的html,可以看出我们要获取的内容标签 2.根据页面的html获取到我们需要的 阅读全文
posted @ 2017-05-03 16:24 corolcorona 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 本项目实现了获取stack overflow问题,使用python语言,scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存 项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider 1.创建一个scrapy项目 阅读全文
posted @ 2017-05-03 15:12 corolcorona 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 1.使用mongoDB必须已经安装mongoDB和pymongo 可以通过命令sudo pip install pymongo安装pymongo 2.settings.py 需要配置MongoDB的IP地址、端口号、数据记录名称,可以实现方便的更换MongoDB的数据库信息。引用pipelines. 阅读全文
posted @ 2017-05-03 12:35 corolcorona 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 项目源码可以参考我的github:https://github.com/corolcorona/spider_scrapy 1.执行以下命令安装redis模块 2.settings.py (报错exceptions.ValueError: ("Failed to instantiate dupefi 阅读全文
posted @ 2017-05-03 12:35 corolcorona 阅读(1141) 评论(1) 推荐(0) 编辑