2013年8月25日

python文件的中文处理以及个人思路

摘要: 环境:ubuntu12.04 python2.7 涉及:ascii,utf-8,gbk,gb2312 首先说下个人处理过程中遇到的问题: 任务是这样:有大概4000个txt,将他们合并到一个文件里,并且去掉原文本中的所有回车 就是 1.txtaaaaaaaaaaaa 2.txtbbbbbbbbbbbb合并成aaaaaaaaaaaabbbbbbbbbbbb看起来非常非常简单。。。但是我就调了大概5个小时,主要原因是由于文件的编码不一致。废话不说了,开始我的思路处理中文的基本思路一,首先确定处理文件的大概编码比如说90%是gb2312,10%是ascii,那么我们先把这些文件全部转换成g... 阅读全文

posted @ 2013-08-25 22:28 sleeper_qp 阅读(518) 评论(0) 推荐(1) 编辑

导航