2022 年 3月 17 日随笔档案 - yu-ye

2022年3月17日

摘要：乱码解决方法 content中间存的是字节码，而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。当我们编码是中文类型（GBK,GB2312等），有时我们直接用text进行解码有时会发生乱码，这是我们需要用字节码的解码函数content.decode(' 阅读全文

posted @ 2022-03-17 19:02 yu-ye 阅读(69) 评论(0) 推荐(0) 编辑

需要登陆，请求数据 session

摘要： requests中的session模块思路：# 1. 登录 --> 等到cookie# 2.带着cookie 请求到书架的url-->书架上的内容#注意：# 两个操作要连续起来操作# 我们可以用session进行请求-->session可以连续进行对话，而且我们得到的cookie不会丢失import 阅读全文

posted @ 2022-03-17 18:57 yu-ye 阅读(144) 评论(0) 推荐(0) 编辑

Xpath 常用语法展示

摘要：非标准代码处理 from lxml import etree #导入lxml 中erree模块 parser = etree.HTMLParser(encoding="utf-8") #解释器指定编码tree = etree.parse("b.html", parser=parser) #把解释器加阅读全文

posted @ 2022-03-17 14:02 yu-ye 阅读(113) 评论(0) 推荐(0) 编辑

lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and head, line 6, column 12 报错分析与解决方案

摘要：报错分析：我们检查代码没有任何问题，但报错显示：开始和结束标记不匹配。 html：因为html是超文本标记语言，代码不规范也能解析。 python：python是编程语言，代码不规范则解析不了。解决方案：我们只要给python指定解析器，他是不是能解析出网页呢？ parser = etree. 阅读全文

posted @ 2022-03-17 12:49 yu-ye 阅读(848) 评论(0) 推荐(0) 编辑

yu-ye

公告