上一页 1 ··· 3 4 5 6 7
摘要: Beautiful Soup简介 Beautiful Soup是python一个HTML或XML解析库,是一款强大的解析工具,它借助于网页结构和属性等特征来解析网页。它的出现使得我们不用再去写协议复杂的正则表达式,而只需几个语句就可以对网页中的某个元素进行提取,提高了解析效率。但是在使用中Beaut 阅读全文
posted @ 2018-12-25 18:47 Coolc 阅读(159) 评论(0) 推荐(0) 编辑
摘要: XPath规则: XPath用法如下: 通过XPath对网页进行解析简单示例 text =''' <div> <ul> <li class="item-0"><a herf="link1.html">first item</a></li> <li class="item-1"><a herf="li 阅读全文
posted @ 2018-12-25 17:51 Coolc 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 正则表达式是处理字符串的强大工具,能够实现字符串的检索、替换、匹配验证等 正则表达式常用匹配规则如下: 匹配方法match():传入匹配的字符串以及正则表达式,从字符串起始开始匹配,一旦开头不匹配,则匹配失败,若匹配成功则返回结果,否则返回None import re content = 'Hell 阅读全文
posted @ 2018-12-24 19:32 Coolc 阅读(144) 评论(0) 推荐(0) 编辑
摘要: requests简介 requests是对于urllib有着很多优势,它能够更好的处理关于cookies,登录验证,代理设置等操作而不需要想urllib南无麻烦,以下为requests经常用到的一些方法 基本用法 get()方法请求网页,实现与urllib库urlopen()方法相同的操作,得到一个 阅读全文
posted @ 2018-12-24 18:46 Coolc 阅读(170) 评论(0) 推荐(0) 编辑
摘要: urllib库简介 Python2有urllib2 和 urllib两个库来实现请求的发送,如今在python3中urllib2和urllib库已经统一为urllib库。Urllib库她是python内置的http请求库,即不需要额外的安装就可以使用。Urllib包含有以下四个模块: Request 阅读全文
posted @ 2018-12-23 19:53 Coolc 阅读(234) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7