随笔分类 - 爬虫
没有最好,只有更好!
摘要:1.Scrapy VS requests requests 一个爬取库,只要作用爬取数据,模拟浏览器,默认是一个线程在运行;(军人) scrapy 一个框架,集成: 数据的采集:重试机制/设置超时/代理/随机浏览器头, 数据的解析:css选择器,xpath, 正则,(前三个默认支持)Beautifu
阅读全文
摘要:1.爬取数据的库和框架:urllib2和urllib, urllib3, requests, 框架:scrapy 和 分布式爬取库 scrapy-redis 2.解析html数据的:正则, xpath(语言) BeautifulSoup4 3.解析json数据的库:JsonPath 4.json通用
阅读全文