06 2018 档案

摘要:分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 阅读全文
posted @ 2018-06-24 17:36 醉曦 阅读(85741) 评论(21) 推荐(21) 编辑
摘要:向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性。 VSM的例子: 比如说,一个文档有分词和去停用词之后,有N个关键词(或许去重后就有M个关键词),文档关键词相应的表示为(d1,d2, 阅读全文
posted @ 2018-06-21 15:01 醉曦 阅读(21881) 评论(1) 推荐(4) 编辑

点击右上角即可分享
微信分享提示