随笔分类 - Python爬虫
摘要:1.常用python模块 pandas 提供快速便捷处理结构化数据的大量数据结构和函数。使用最多的pandas对象dataframe,他是一个面向列的二维表结构,另一个是series,一个一维的标签化数组对象。 numpy 科学计算的基础包,包括多维数组,数组运算函数,线性代数运算、傅里叶变化、随机
阅读全文
摘要:##1. 爬虫分类 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据; 聚焦爬虫: 建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。 增量式爬虫: 检测网站中数据更新情乱,只会抓取网站中最新更新出来的数据。 反爬机制: 通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取; 反
阅读全文