摘要: “宝贝印象”是从用户评论中解析出关键词来,并根据这些关键词对于文档本身进行聚类以提供给用户更加直观评论信息。 淘宝系统当中有庞大的词库支持,如用户描述“好闻”“很香”等会被自动判断为“气味”,当该属性的提及次数在所有的属性词当中排在前K个,即会被展现,用户点击“气味”时,也会自动反向匹配相关评论的原文。要实现这样的效果,首先需要对于关键词进行聚类。假设有一个documents-terms所组成的矩阵每一行代表一个文档,行当中的每个元素代表某个单词出现的次数,这样把字典中的所有单词全部平铺开来,就会形成一个很大而且稀疏的矩阵。假设该矩阵为A, 如果对这个矩阵进行SVD分解,则会得到如下的形式化表 阅读全文
posted @ 2013-06-12 16:20 HarryJiang 阅读(1135) 评论(0) 推荐(0) 编辑