随笔分类 -  Python爬虫

摘要:1.常用python模块 pandas 提供快速便捷处理结构化数据的大量数据结构和函数。使用最多的pandas对象dataframe,他是一个面向列的二维表结构,另一个是series,一个一维的标签化数组对象。 numpy 科学计算的基础包,包括多维数组,数组运算函数,线性代数运算、傅里叶变化、随机 阅读全文
posted @ 2022-05-05 23:48 hanqi 阅读(242) 评论(0) 推荐(0) 编辑
摘要:##1. 爬虫分类 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据; 聚焦爬虫: 建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。 增量式爬虫: 检测网站中数据更新情乱,只会抓取网站中最新更新出来的数据。 反爬机制: 通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取; 反 阅读全文
posted @ 2022-04-17 16:40 hanqi 阅读(299) 评论(0) 推荐(0) 编辑