上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 24 下一页
摘要: 说明一下,这个标题可能有点突兀,结合上一篇一起看就行 前面已经对BeautifulSoup有了了解了,相信你基本已经学会怎么获取网页数据了,那么BeautifulSoup这么吊,还有没有其他的功能呢?当然是有的 前面说的Tag对象都还记得吧?像这样BeautifulSoup.title,得到的就是Tag对象,它其实还有一些属性: 1.contents:将tag的子节点以列表的方式输出 阅读全文
posted @ 2017-11-10 18:39 Eeyhan 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 前面解析了正则表达式,其实内容还挺多的对吧?确实挺适用的,不仅是python,其他语言或者web前端后端基本都要掌握正则表达式知识,但是你说,这么多,要完全的掌握,灵活运用的话,得搞多久啊?并且如果一次匹配稍有差池,一步错,步步错,并且很多朋友相信其实还不太熟练正则表达式,咋办呢?有没有什么可以替代正则表达式呢?哎,有的,那就是——BeautifulSoup。 阅读全文
posted @ 2017-11-10 12:25 Eeyhan 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 前面学习了元家军以及其他的字符匹配方法,那得会用啊对吧?本篇博文就简单的解析怎么运用 正则表达式使用 前面说了正则表达式的知识点,本篇博文就是针对常用的正则表达式进行举例解析。相信你知道要用正则表达式的话,得导入re模块 1.re模块方法/属性 阅读全文
posted @ 2017-11-09 15:14 Eeyhan 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 决这个问题呢?那就是这一篇博文的主题—— 正则表达式简介 1.概念理解 正则表达式(Regular expressions 也称为 REs,或 regexes 或 regex patterns)本质上是一个微小的且高度专业化的编程语言。正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。使用正则表 阅读全文
posted @ 2017-11-06 22:31 Eeyhan 阅读(299) 评论(9) 推荐(1) 编辑
摘要: 正题 前面学了那么多模块啊,什么方法属性,请求啥的,相信你不说精通,至少你可以爬一个网站了吧? 其实,我想说,爬虫真的不仅限于此,之前我提过,访问一个网站时,网站服务器可以看到客户端访问信息,以及以什么方式访问,如果是程序访问,原则是不行的,所以会被拒绝访问,因此需要修改参数来隐藏,我们已经学过的就是修改报文头部信息,模仿成浏览器式的访问,但这个还是有个问题,由于使用同一个IP多次访问,网站服务器不管user-agent是否是程序还是浏览器人为访问,都直接拒绝访问,或者显示验证页,让你输入验证码才行,网络爬虫自然是无法输入验证码的,输入验证码的相信你都知道吧,其实现在很多网站都有验证码才能过,这种就是简单防爬虫 阅读全文
posted @ 2017-11-06 17:34 Eeyhan 阅读(259) 评论(0) 推荐(0) 编辑
摘要: requests 1.简介 Requests 是用Python语言编写的第三方库,所以你需要pip安装,安装过程就略过了。它基于urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便实用,功能强大,可以节约我们大量的工作,满足一般的HTTP 测试需求。最重要的是,它支持 Python3 2.方法/属性 阅读全文
posted @ 2017-11-06 10:22 Eeyhan 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 这里先要补充一下,Python3自带两个用于和HTTP web 服务交互的标准库(内置模块): http.client 是HTTP协议的底层库 urllib.request 建立在http.client之上一个抽象层,它为访问HTTP和FTP服务器提供一个标准的API,可以自动跟随HTTP重定向并处理一些常见形式的HTTP 认证 httplib2 1.简介 阅读全文
posted @ 2017-11-05 17:57 Eeyhan 阅读(444) 评论(0) 推荐(0) 编辑
摘要: httplib 1.简介 同样的,httplib默认存在于python2,python3不存在: 阅读全文
posted @ 2017-11-05 10:39 Eeyhan 阅读(252) 评论(0) 推荐(0) 编辑
摘要: urllib3 1.简介 urllib3相比urllib,urlib2,又有些一些新的功能,可以实现很多东西,而这个模块有点特殊的是,并且还可以同时存在于python2和python3,但说实话,用的真的很少的。 阅读全文
posted @ 2017-11-04 11:31 Eeyhan 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 前面既然都提到编码了,那么把相关的编码问题补充完整吧 编码 之前我说过,使用python2爬取网页时,容易出现编码问题,下面就真的拿个例子来看看: python2下: 阅读全文
posted @ 2017-11-03 14:26 Eeyhan 阅读(218) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 24 下一页