摘要: 1 基本信息 Beautiful Soup是用于处理解析页面信息的 具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库 安装方法 最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的 这些标签对最终会形成 阅读全文
posted @ 2017-04-12 20:30 weihuchao 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 1 一般对爬虫的限制 爬虫会造成问题 对网站服务器的骚扰 可能会引起法律问题 而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露 一般对爬虫限制的两个方法 1) 来源审查, 判断User-Agent进行限制 具体来说就是根据HTTP来访的协议头中的User-Agent 阅读全文
posted @ 2017-04-12 16:54 weihuchao 阅读(679) 评论(0) 推荐(0) 编辑
摘要: 1 协程函数的应用 写一个装饰器用于让协程函数不需要输入再执行一次next()函数 分析: 在装饰器中生成该协程函数的生成器, 并且执行一次next()函数 具体描述如下 2 面向过程编程 实现 grep -rl 'python' c:/test 的功能 一个函数实现 利用生成器来处理 3 列表生成 阅读全文
posted @ 2017-04-12 14:58 weihuchao 阅读(215) 评论(0) 推荐(0) 编辑