摘要: 原文pyquery库 pyquery主要是用在CSS选择器上 ###使用方法 pyquery包中有一个PyQuery类,导入该类,然后创建该类的实例 有三种方式将HTML文档传入PyQuery实例中; 这里主要多出的就是url 其他两种就是:字符串和文件 from pyquery import Py 阅读全文
posted @ 2021-10-04 20:51 索匣 阅读(28) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup库](https://www.cnblogs.com/wkhzwmr/p/15230635.html) Bequtiful会自动将输入的文档转化为Unicode编码,输出文档转化为UTF-8编码。一般在使用的过程中不需要考虑编码的问题,除非文档没有指定编码,这啥意思呢,是 阅读全文
posted @ 2021-10-04 20:23 索匣 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 原文连接 Xpath全称是XML Path language,xml路径语言 ####lxml装在HTML代码的两种方式 1.从文件装载,使用parse函数 etree.parse 2.从HTML代码装载,使用HTML函数 etree.HTML() ####选取所有节点 //*表示选取所有节点 // 阅读全文
posted @ 2021-10-04 18:58 索匣 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 来自lxml于xpath和文件存储 ###操作XML 读取XML文件,使用parse函数 就是 from lxml import etree tree = etree.parse('text.xml') ####转化成字符串形式的XML a = str(etree.tostring(tree,enc 阅读全文
posted @ 2021-10-04 16:41 索匣 阅读(134) 评论(0) 推荐(0) 编辑
摘要: requests包中并没有讲如何获取Cookie,而是讲了如何把cookie传进去 urllib讲了如何获取Cookie 首先创建http.cookiejar.Cookiejar类的实例a,然后再创建urllib.request.HTTPCookieProcessor类的实例b,并将a作为参数传入b 阅读全文
posted @ 2021-10-04 14:51 索匣 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 读自己的笔记产生的随笔:正则表达式 re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。而findall是返回所有匹配到的字符串 ###正则表达式 python中的正则表达式就是python的标准库r 阅读全文
posted @ 2021-10-04 12:20 索匣 阅读(27) 评论(0) 推荐(0) 编辑
摘要: ###http请求 话说htto请求有哪些呢 嗯:GET方法 requests.get(url) 这个会返回 状态码 status_code 响应体 text Cookie 等这些信息 ####get请求加指定参数 params参数,是个字典键值对,然后加在requests.get()中即可 若是想 阅读全文
posted @ 2021-10-04 10:16 索匣 阅读(12) 评论(0) 推荐(0) 编辑