爬虫常用相关库

1.爬取数据的库和框架：urllib2和urllib, urllib3, requests, 框架：scrapy 和分布式爬取库 scrapy-redis

2.解析html数据的：正则， xpath(语言) BeautifulSoup4

3.解析json数据的库：JsonPath

4.json通用提取数据方式是：先转换成python中字典，根据key取值，json库

5.数据分析的库：numpy, pandas

6.可视化的库：Matplotlib

7.数据存储：文件，mysql, mongodb, redis

注意：urllib2在python3中被改为 urllib.request ; python解释器自带urllib和urllib2 这两个库；

posted @ 2020-11-10 15:54 以赛亚阅读(286) 评论(0) 收藏举报

刷新页面返回顶部

以赛亚