摘要: 乱码解决方法 content中间存的是字节码,而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。 当我们编码是中文类型(GBK,GB2312等),有时我们直接用text进行解码有时会发生乱码,这是我们需要用字节码的解码函数content.decode(' 阅读全文
posted @ 2022-03-17 19:02 yu-ye 阅读(69) 评论(0) 推荐(0) 编辑
摘要: requests中的session模块思路:# 1. 登录 --> 等到cookie# 2.带着cookie 请求到书架的url-->书架上的内容#注意:# 两个操作要连续起来操作# 我们可以用session进行请求-->session可以连续进行对话,而且我们得到的cookie不会丢失import 阅读全文
posted @ 2022-03-17 18:57 yu-ye 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 非标准代码处理 from lxml import etree #导入lxml 中erree模块 parser = etree.HTMLParser(encoding="utf-8") #解释器指定编码tree = etree.parse("b.html", parser=parser) #把解释器加 阅读全文
posted @ 2022-03-17 14:02 yu-ye 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 报错分析: 我们检查代码没有任何问题,但报错显示:开始和结束标记不匹配。 html:因为html是超文本标记语言,代码不规范也能解析。 python:python是编程语言,代码不规范则解析不了。 解决方案: 我们只要给python指定解析器,他是不是能解析出网页呢? parser = etree. 阅读全文
posted @ 2022-03-17 12:49 yu-ye 阅读(848) 评论(0) 推荐(0) 编辑