全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
摘要:
基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基本步聚是先对文本内容进行分词,包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等;第二步是计算各个词在每篇文章中的出现频率,以及在所有文章中的出现频率,即TF/IDF;第三步计算文章向量;最后是利用自动聚类算法,对条目进行聚类,这样就可以实现向用户推荐同类产品的需求了。但是在这里有一个非 阅读全文
posted @ 2011-08-16 11:30 最老程序员闫涛 阅读(2924) 评论(2) 推荐(4) 编辑