摘要: 在进行中文分词统计前,往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉,这一过程叫做数据清洗。 通过上面的代码可以去除与中文分词统计无关的内容,效果如下: 阅读全文
posted @ 2017-04-21 22:59 lovealways 阅读(3039) 评论(1) 推荐(0) 编辑