摘要:
由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧! 20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛, 这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。 阅读全文
摘要:
编码问题一直不怎么讨人喜欢,处理文本时经常遇到各种编码问题,这不,今天又遇见一个。 知道了'\xa0'是什么,问题就不难解决了。 去掉了这个字符,按理说没什么问题了。 如果还不行,那么查看一下要读取的文件的编码,一般来讲,他是一个UTF-8编码的,那么把他改成ansi编码的,按正常方法读取即可。 . 阅读全文