摘要: 决这个问题呢?那就是这一篇博文的主题—— 正则表达式简介 1.概念理解 正则表达式(Regular expressions 也称为 REs,或 regexes 或 regex patterns)本质上是一个微小的且高度专业化的编程语言。正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。使用正则表 阅读全文
posted @ 2017-11-06 22:31 Eeyhan 阅读(299) 评论(9) 推荐(1) 编辑
摘要: 正题 前面学了那么多模块啊,什么方法属性,请求啥的,相信你不说精通,至少你可以爬一个网站了吧? 其实,我想说,爬虫真的不仅限于此,之前我提过,访问一个网站时,网站服务器可以看到客户端访问信息,以及以什么方式访问,如果是程序访问,原则是不行的,所以会被拒绝访问,因此需要修改参数来隐藏,我们已经学过的就是修改报文头部信息,模仿成浏览器式的访问,但这个还是有个问题,由于使用同一个IP多次访问,网站服务器不管user-agent是否是程序还是浏览器人为访问,都直接拒绝访问,或者显示验证页,让你输入验证码才行,网络爬虫自然是无法输入验证码的,输入验证码的相信你都知道吧,其实现在很多网站都有验证码才能过,这种就是简单防爬虫 阅读全文
posted @ 2017-11-06 17:34 Eeyhan 阅读(259) 评论(0) 推荐(0) 编辑
摘要: requests 1.简介 Requests 是用Python语言编写的第三方库,所以你需要pip安装,安装过程就略过了。它基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便实用,功能强大,可以节约我们大量的工作,满足一般的HTTP 测试需求。最重要的是,它支持 Python3 2.方法/属性 阅读全文
posted @ 2017-11-06 10:22 Eeyhan 阅读(291) 评论(0) 推荐(0) 编辑