随笔分类 -  爬虫

没有最好,只有更好!
摘要:1.Scrapy VS requests requests 一个爬取库,只要作用爬取数据,模拟浏览器,默认是一个线程在运行;(军人) scrapy 一个框架,集成: 数据的采集:重试机制/设置超时/代理/随机浏览器头, 数据的解析:css选择器,xpath, 正则,(前三个默认支持)Beautifu 阅读全文
posted @ 2020-12-01 20:15 以赛亚 阅读(135) 评论(0) 推荐(0) 编辑
摘要:1.爬取数据的库和框架:urllib2和urllib, urllib3, requests, 框架:scrapy 和 分布式爬取库 scrapy-redis 2.解析html数据的:正则, xpath(语言) BeautifulSoup4 3.解析json数据的库:JsonPath 4.json通用 阅读全文
posted @ 2020-11-10 15:54 以赛亚 阅读(266) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示