Torres-tao  

2022年3月29日

摘要: BS4解析库 Beautiful Soup简称BS4(4表示版本号),是一个python第三方库,它可以从HTML或XML文档中快速提取指定的数据。 BS4安装 pip3 install bs4 #BS4解析页面时,需要依赖文档解析器,所以还需要安装lxml作为解析库 pip3 install lx 阅读全文
posted @ 2022-03-29 19:53 雷子锅 阅读(228) 评论(0) 推荐(0) 编辑
 
摘要: 爬虫分类 爬虫可分为三类:通用网络爬虫、聚焦网络爬虫和增量式网络爬虫 通用网络爬虫 通用网络爬虫是搜索引擎的重要组成部分,通用网络爬虫需要遵守robots协议,网站通过此协议告诉搜索引擎那些页面可以抓取,哪些页面不允许抓取。 robots协议:是一种“约定俗成”的协议,并不具备法律效力,它体现了互联 阅读全文
posted @ 2022-03-29 10:31 雷子锅 阅读(121) 评论(0) 推荐(0) 编辑