摘要: 本文主要讲统计分词。 中文预处理的一个重要的环节就是对语料进行分词,将一句话或者一个段落拆分成许多独立个体的词,然后方便向量化,接着进行TF-IDF的特征处理。 在英语中,单词本身就是“词”,而在汉语中,“词”以“字”为基本单位,文章的语义表达仍然以“词”来划分,所以在处理中文文本时,需要进行分词处 阅读全文
posted @ 2020-03-09 19:00 小千北同学超爱写代码 阅读(847) 评论(0) 推荐(0) 编辑