2017年5月2日

中文文本分类(续)

摘要: 二. 中文文本分类技术和流程 1. 预处理:去除文本的噪声信息,例如 HTML 标签,文本格式转换,检测句 子边界等等; 2. 中文分词:使用中文分词器为文本分词,并去除停用词; 3. 构建词向量空间:统计文本词频,生成文本的词向量空间; 4. 权重策略--TF-IDF 方法:使用 TF-IDF 发 阅读全文

posted @ 2017-05-02 09:38 taich-flute 阅读(1036) 评论(0) 推荐(0) 编辑

导航