2018 年 1月 14 日随笔档案 - 深圳地铁Princess

2018年1月14日

摘要：由于一个文件的末尾多出了几个空行，导致抓取链接的网页重复，再加上数据量大，各种原因吧！ 20万数据洗成了两万，不完全统计某些数据重复数高达100条，爬虫这一天是白跑了，痛定思痛，这种错误以后可不能再犯了。这不仅耽误自己时间，也对不起人家网站呐。阅读全文

posted @ 2018-01-14 19:57 深圳地铁Princess 阅读(157) 评论(0) 推荐(0) 编辑

python读写文件报错：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 19: illegal multibyte sequence

摘要：编码问题一直不怎么讨人喜欢，处理文本时经常遇到各种编码问题，这不，今天又遇见一个。知道了'\xa0'是什么,问题就不难解决了。去掉了这个字符，按理说没什么问题了。如果还不行，那么查看一下要读取的文件的编码，一般来讲，他是一个UTF-8编码的，那么把他改成ansi编码的，按正常方法读取即可。 . 阅读全文

posted @ 2018-01-14 19:41 深圳地铁Princess 阅读(811) 评论(0) 推荐(0) 编辑

深圳地铁Princess

刷题的路还很长。。。一步一个脚印踏踏实实地走下去吧。。。

公告