2019 年 1月 30 日随笔档案 - liubosong

2019年1月30日

摘要：框架 pyspiderpyspider 启动callback 回调self.crawl 生成一个爬取任务，加入到待爬取的队列@every 告诉调度器这个方法每天执行一次@config 告诉调度器这个request请求过期时间为10天解析数据 re bs4 xpath pyqueryphant 阅读全文

posted @ 2019-01-30 23:32 liubosong 阅读(273) 评论(0) 推荐(0) 编辑

网络爬虫-总结

摘要： import requests requests . get( ' https:/ /www. baidu. com')爬虫程序1.给定种子url,程序负责获取url的页面数据2.程序对页面数据解析解析，匹配需要的url连接，放入到队列3.重复1和2, 直到条件完成效率线程协程分布式架构优阅读全文

posted @ 2019-01-30 20:57 liubosong 阅读(347) 评论(0) 推荐(0) 编辑

pymongo使用方法

摘要：连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的MongoClient，一般来说传入MongoDB的IP及端口即可 client = pymongo.MongoClient(host='127.0.0.1', port=27017) # 指定数据库 # MongoDB中还分为阅读全文

posted @ 2019-01-30 20:02 liubosong 阅读(130) 评论(0) 推荐(0) 编辑

liubosong

公告