摘要: 这里介绍一下文本预处理中常用的操作: 1.英文统一小写 2.分词 3.去噪 两种方式 (1)去停用词 包括中英文标点符号、以及噪音词,参考附录[1] (2)只保留指定词典中的词 这个词典与任务强相关,通常是当前任务重点关注的特征词 其中,为了保证分词的结果是我们想要的,通常需要调整jieba词典: 阅读全文
posted @ 2018-05-29 12:01 焦距 阅读(1008) 评论(0) 推荐(0) 编辑