摘要: 文本分类 一、建立语料库 文本数据的获取方法一般有两种: 使用别人做好的语料库 爬虫去获取自己的预料数据 二、文本预处理 1、 除去数据中非文本部分 一般可以使用正则表达式去进行删除 2、 处理中文编码问题 由于python2不支持unicode的处理,因此使用python2做中文文本预处理需要遵循 阅读全文
posted @ 2019-04-11 21:04 宁小静 阅读(2230) 评论(0) 推荐(0) 编辑