摘要: 【总结】 使用正则解析HTML比较繁琐,以上代码时为了练习正则所以使用正则来解析html,更建议使用专门的库; 出于模块化思想,所以把下载网页、获取网页中全部的链接、找出我们需要的链接、以及下载小说用不同的方法来编写; 编写过程中报了很多错,其中最棘手的还是怎么用正则解析html的标签,最后取了一个 阅读全文
posted @ 2018-03-22 16:30 张老师的小黑屋 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 【问题】 在执行代码时,提示上述错误,源码如下: 【解决过程】 1. 再次确认其编码格式,确实是utf-8; 2.此问题觉得很诡异的是,本身调用UTF-8去decode,但是解码出错却提示的是GBK的,而不是UTF-8相关解码出错。 3.找了其他帖子,尝试在解码时添加ignore 属性,但没有解决。 阅读全文
posted @ 2018-03-22 16:00 张老师的小黑屋 阅读(1989) 评论(0) 推荐(0) 编辑