处理python错误问题

------------恢复内容开始------------

调试过程中遇到的问题

(1)爬取首页源码出现中文乱码

解决方案: 将网页编码强制转换成gbk,并去除解决乱码问题的三行代码。

 

 

(2)程序运行到一半一直没有反应,没有报错也没有停止运行。

原因:频繁请求服务器,网站有反爬取机制。

解决方案:添加一个header浏览器伪装,模仿浏览器请求,防止封锁本机IP地址。

 

(3)标题加入列表时抛出异常。

原因:某个文章标题&nbsp含有空格符,BeautifulSoup无法解析。

解决办法:利用replace()函数将\xa0代替掉。

 

(4)保存列表数据时格式没有对齐,有点乱

原因:原文中含有大量的\n存在,列表存入时遇到\n直接换行存入。

解决办法:利用replace()函数将\n代替掉。

 

posted @ 2019-12-22 20:14  丁如超dd  阅读(160)  评论(0编辑  收藏  举报