摘要:requests中cookie的原理 http://blog.csdn.net/zhu_free/article/details/50563756 requests - cookies的实现例子 http://www.cnblogs.com/nizhihong/p/6699492.html 在请求中
阅读全文
随笔分类 - Crawler
摘要:什么是PyQuery PyQuery是强大又灵活的网页解析库。如果熟悉jQuery的语法,那么PyQuery就是你的绝佳选择 安装PyQuery pip3 install PyQuery 用法讲解 初始化 字符串初始化常用在得到网页源代码,然后进行解析。 html = """ <div> <ul>
阅读全文
摘要:BeautifulSoup BeautifulSoup是灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可以方便地实现网页信息的提取 安装BeautifulSoup pip3 install beautifulsoup4 BeautifulSoup用法 解析库 解析库使用
阅读全文
摘要:什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、以及这些特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一种过滤逻辑 Python用re模块实现 在线正则表达式工具 其中有许多常用的正则表达式,非常好用。 一般的网页可以用beauti
阅读全文
摘要:什么是Request库 Requests是用Python语言编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库。 安装Requests pip3
阅读全文
摘要:Urllib库是python内置的库 什么是Urllib 1. urllib.request 请求模块2. urllib.error 异常处理模块3. urllib.parse url解析模块4. urllib.robotparser robots.txt解析模块 用法 urlopen urllib
阅读全文