CSDN 博客备份工具

https://blog.csdn.net/marksinoberg/article/details/70946107

 

Beautiful Soup

https://cuiqingcai.com/1319.html

 

https://www.cnblogs.com/forever-snow/p/8506746.html

 

第1步、解析网页
有四种解析方式:
(1)‘html.parser’解析 速度适中,容错能力强
(2)’lxml’解析 速度快,容错能力强
(3)’xml’解析 速度快,唯一支持xml的解析器
(4)’html5lib’解析 速度慢点,最好的容错性

 

https://blog.csdn.net/sinat_23880167/article/details/78506016

 

几种爬虫比较

  1. urllib+正则:无第三方依赖
  2. requests+BeautifulSoup:library
  3. scrapy:框架

 

posted on 2022-10-04 01:28  bdy  阅读(6)  评论(0编辑  收藏  举报

导航