2018 年 3月 22 日随笔档案 - 张老师的小黑屋

2018年3月22日

摘要：【总结】使用正则解析HTML比较繁琐，以上代码时为了练习正则所以使用正则来解析html，更建议使用专门的库；出于模块化思想，所以把下载网页、获取网页中全部的链接、找出我们需要的链接、以及下载小说用不同的方法来编写；编写过程中报了很多错，其中最棘手的还是怎么用正则解析html的标签，最后取了一个阅读全文

posted @ 2018-03-22 16:30 张老师的小黑屋阅读(447) 评论(0) 推荐(0) 编辑

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multib

摘要：【问题】在执行代码时，提示上述错误，源码如下：【解决过程】 1. 再次确认其编码格式，确实是utf-8； 2.此问题觉得很诡异的是，本身调用UTF-8去decode，但是解码出错却提示的是GBK的，而不是UTF-8相关解码出错。 3.找了其他帖子，尝试在解码时添加ignore 属性，但没有解决。阅读全文

posted @ 2018-03-22 16:00 张老师的小黑屋阅读(1989) 评论(0) 推荐(0) 编辑

公告