摘要: 框架 pyspiderpyspider 启动callback 回调self.crawl 生成一个爬取任务,加入到待爬取的队列@every 告诉调度器 这个方法 每天执行一次@config 告诉调度器 这个request请求 过期时间为10天解析数据 re bs4 xpath pyqueryphant 阅读全文
posted @ 2019-01-30 23:32 liubosong 阅读(273) 评论(0) 推荐(0) 编辑
摘要: import requests requests . get( ' https:/ /www. baidu. com')爬虫程序1.给定种子url,程序负责获取url的页面数据2.程序对页面数据解析解析,匹配需要的url连接,放入到队列3.重复1和2, 直到条件完成 效率 线程 协程 分布式架构 优 阅读全文
posted @ 2019-01-30 20:57 liubosong 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的MongoClient,一般来说传入MongoDB的IP及端口即可 client = pymongo.MongoClient(host='127.0.0.1', port=27017) # 指定数据库 # MongoDB中还分为 阅读全文
posted @ 2019-01-30 20:02 liubosong 阅读(130) 评论(0) 推荐(0) 编辑