摘要: 先介绍tf idf 在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来 阅读全文
posted @ 2018-04-10 17:38 Earendil 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 背景: 我遇到一个问题,要计算140万商品的杰卡德相似度。如果直接要直接两两计算的话,这计算量根本算不了,而且也没必要。 分析: 在这些商品中很多商品的相似度并不高,也就是说其中达到相似度阈值的商品只占这些商品组合的一小部分。针对这种情况,首先想到的是按照类别,或者商品品牌进行计算,只计算同类别或者 阅读全文
posted @ 2018-04-10 15:33 Earendil 阅读(389) 评论(0) 推荐(0) 编辑