摘要: 1.encode与decode:unicode经过encode -> utf-8,反过来为decode。 爬虫读取网页内容和pandas读取csv时,会把读取到的文字内容转成unicode,当我们需要把这些文字内容写入到新的文件时,需要设置该文件的编码(该编码应该与网页或原来的编码相同,以便带来编码 阅读全文
posted @ 2018-07-12 19:34 morein2008 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 1.找出某个字段包含某字符串的行: 2.字段值长度大于零的行: 阅读全文
posted @ 2018-07-12 19:30 morein2008 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 写代码写习惯了,在做数据预处理时也总是习惯性地用python、pandas来做处理,但其实有时候根本不需要写代码,用excel也能达到目的,甚至比写代码快很多,写代码要半天,excel只要几秒钟。下面是几个最近发现的实用技能和场景: 1.去掉某一个列的重复项:例如,删除address列中的重复项。 阅读全文
posted @ 2018-07-12 10:28 morein2008 阅读(159) 评论(0) 推荐(0) 编辑