Coolc - 博客园

2018年12月25日

摘要： Beautiful Soup简介 Beautiful Soup是python一个HTML或XML解析库，是一款强大的解析工具，它借助于网页结构和属性等特征来解析网页。它的出现使得我们不用再去写协议复杂的正则表达式，而只需几个语句就可以对网页中的某个元素进行提取，提高了解析效率。但是在使用中Beaut 阅读全文

posted @ 2018-12-25 18:47 Coolc 阅读(161) 评论(0) 推荐(0) 编辑

XPath 解析库

摘要： XPath规则： XPath用法如下：通过XPath对网页进行解析简单示例 text =''' <div> <ul> <li class="item-0"><a herf="link1.html">first item</a></li> <li class="item-1"><a herf="li 阅读全文

posted @ 2018-12-25 17:51 Coolc 阅读(271) 评论(0) 推荐(0) 编辑

2018年12月24日

python正则表达式-re

摘要：正则表达式是处理字符串的强大工具，能够实现字符串的检索、替换、匹配验证等正则表达式常用匹配规则如下：匹配方法match():传入匹配的字符串以及正则表达式，从字符串起始开始匹配，一旦开头不匹配，则匹配失败，若匹配成功则返回结果，否则返回None import re content = 'Hell 阅读全文

posted @ 2018-12-24 19:32 Coolc 阅读(146) 评论(0) 推荐(0) 编辑

python爬虫-requests

摘要： requests简介 requests是对于urllib有着很多优势，它能够更好的处理关于cookies,登录验证，代理设置等操作而不需要想urllib南无麻烦，以下为requests经常用到的一些方法基本用法 get（）方法请求网页,实现与urllib库urlopen()方法相同的操作，得到一个阅读全文

posted @ 2018-12-24 18:46 Coolc 阅读(173) 评论(0) 推荐(0) 编辑

2018年12月23日

python爬虫之urllib

摘要： urllib库简介 Python2有urllib2 和 urllib两个库来实现请求的发送，如今在python3中urllib2和urllib库已经统一为urllib库。Urllib库她是python内置的http请求库，即不需要额外的安装就可以使用。Urllib包含有以下四个模块： Request 阅读全文

posted @ 2018-12-23 19:53 Coolc 阅读(256) 评论(0) 推荐(0) 编辑

cook

公告