摘要: 爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考: "Python学习指南" 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 1. 定(要知道你准备在哪个范围或者网站去搜索) 2. 爬(将所有的网站的内容全部爬下来) 3. 取(分析数据,去掉对我们没用处的数据) 4. 存(按照我们想要的 阅读全文
posted @ 2017-12-03 21:25 小破孩92 阅读(3481) 评论(0) 推荐(1) 编辑
摘要: 本篇将介绍python正则表达式,更多内容请参考: "【python正则表达式】" 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串” 阅读全文
posted @ 2017-12-03 21:25 小破孩92 阅读(1878) 评论(1) 推荐(0) 编辑
摘要: "Python学习指南" 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素。 什么是XML + XML指可扩展标记语言(Extensible Markup Language) 阅读全文
posted @ 2017-12-03 21:18 小破孩92 阅读(3965) 评论(0) 推荐(0) 编辑
我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=1lpynpue2xgn