CSDN 博客备份工具
https://blog.csdn.net/marksinoberg/article/details/70946107
Beautiful Soup
https://cuiqingcai.com/1319.html
https://www.cnblogs.com/forever-snow/p/8506746.html
第1步、解析网页
有四种解析方式:
(1)‘html.parser’解析 速度适中,容错能力强
(2)’lxml’解析 速度快,容错能力强
(3)’xml’解析 速度快,唯一支持xml的解析器
(4)’html5lib’解析 速度慢点,最好的容错性
https://blog.csdn.net/sinat_23880167/article/details/78506016
几种爬虫比较
- urllib+正则:无第三方依赖
- requests+BeautifulSoup:library
- scrapy:框架