2017 年 12月 3 日随笔档案 - 小破孩92

2017年12月3日

摘要：爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考： "Python学习指南" 页面解析与数据提取实际上爬虫一共就四个主要步骤： 1. 定（要知道你准备在哪个范围或者网站去搜索） 2. 爬（将所有的网站的内容全部爬下来） 3. 取（分析数据，去掉对我们没用处的数据） 4. 存（按照我们想要的阅读全文

posted @ 2017-12-03 21:25 小破孩92 阅读(3506) 评论(0) 推荐(1) 编辑

Python爬虫(十)_正则表达式

摘要：本篇将介绍python正则表达式，更多内容请参考： "【python正则表达式】" 什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串” 阅读全文

posted @ 2017-12-03 21:25 小破孩92 阅读(1886) 评论(1) 推荐(0) 编辑

Python爬虫(十二)_XPath与lxml类库

摘要： "Python学习指南" 有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？有！那就是XPath,我们可以用先将HTML文档转换成XML文档，然后用XPath查找HTML节点或元素。什么是XML + XML指可扩展标记语言(Extensible Markup Language) 阅读全文

posted @ 2017-12-03 21:18 小破孩92 阅读(3975) 评论(0) 推荐(0) 编辑

小破孩

专注于项目开发

公告