摘要:
爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考: "Python学习指南" 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 1. 定(要知道你准备在哪个范围或者网站去搜索) 2. 爬(将所有的网站的内容全部爬下来) 3. 取(分析数据,去掉对我们没用处的数据) 4. 存(按照我们想要的 阅读全文
摘要:
本篇将介绍python正则表达式,更多内容请参考: "【python正则表达式】" 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串” 阅读全文
摘要:
"Python学习指南" 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素。 什么是XML + XML指可扩展标记语言(Extensible Markup Language) 阅读全文