摘要: 在博问上有个人提问汉字字典树的问题,于是自己手动了实现了一个汉字字典树。和英文字典树不同的是,每个节点的指针不是26个英文字母,汉字字典树的节点的指针是根据输入的汉词来决定的。节点中使用map<string,int>来存放每个汉字的指针 阅读全文
posted @ 2018-03-31 17:47 Shendu.CC 阅读(1201) 评论(0) 推荐(0) 编辑
摘要: 接着上一篇。在正式的尝试使用文本分类算法分类文本的时候,我们得先准备两件事情: 一,准备适量的训练文本;二,选择合适的方法将这些训练文本进行表示(也就是将文本换一种方式表示) 大家都知道文本其实就是很多词组成的文章啊。所以很自然的就想到用一系列词来表示文本。比如我这篇文章,将其分词之后的结果就是: 阅读全文
posted @ 2018-03-31 16:58 Shendu.CC 阅读(1971) 评论(1) 推荐(2) 编辑