摘要: 爬虫的思路 先判断网页是否允许爬虫(1)get_html()获取源码 1、不允许就加上headers头部信息,模拟用户访问 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KH 阅读全文
posted @ 2017-05-14 21:00 张大猛 阅读(2516) 评论(0) 推荐(0) 编辑
摘要: 基础篇 正则表达式在python中运用的非常多,因为他可以进行任意的匹配,可以匹配我们想要提取的信息。当我们接触正则的时候你就会知道正则的强大。正则有一个库re 在一些工程中我们会经常调用正则的库来做与匹配相关的问题。 字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比 阅读全文
posted @ 2017-05-14 20:46 张大猛 阅读(7268) 评论(0) 推荐(4) 编辑
摘要: python中的切片操作功能十分强大,通常我们利用切片来进行提取信息,进行相关的操作,下面就是一些切片的列子。 列如我们从range函数1-100中取7的倍数,函数及结果如下所示: 取一个list或tuple的部分元素是非常常见的操作。比如,一个list如下: 取前3个元素,应该怎么做? 笨办法: 阅读全文
posted @ 2017-05-14 20:21 张大猛 阅读(31804) 评论(3) 推荐(5) 编辑