随笔分类 - Python爬虫
Python爬虫
摘要:1 scrapy框架的介绍 安装 查看是否安装完成 scrapy框架是实现爬虫功能的一个软件结构和功能组件集合 scrapy爬虫框架的结构 这5+2的结构, 就是scrapy框架 主要有三条主要的数据流路径 第一条路径 1) Engine通过中间件获得了Spiders发送的请求, 这个请求叫做req
阅读全文
摘要:1 正则表达式 在Python中正则表达式库需要导入re库 正则表达式需要使用原生字符串来表达, 原生字符串(raw shtring)在普通的字符串前面加 r 表示 1.1 正则表达式的主要功能函数 search(pattern, string, flags=0) search用于在字符串中搜索,
阅读全文
摘要:1 基本信息 Beautiful Soup是用于处理解析页面信息的 具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库 安装方法 最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的 这些标签对最终会形成
阅读全文
摘要:1 一般对爬虫的限制 爬虫会造成问题 对网站服务器的骚扰 可能会引起法律问题 而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露 一般对爬虫限制的两个方法 1) 来源审查, 判断User-Agent进行限制 具体来说就是根据HTTP来访的协议头中的User-Agent
阅读全文
摘要:1 安装 2 主要的方法 3 get方法 r是一个Response对象, 包含爬虫返回的内容 url的Request requests.get(url, params=None, **kwargs) 基本操作方法 4 Response对象属性 status_code HTTP请求的返回状态, 200
阅读全文