随笔分类 -  算法

摘要:A:西米喜欢健身 B:超超不爱健身,喜欢打游戏 step1:分词 A:西米/喜欢/健身 B:超超/不/喜欢/健身,喜欢/打/游戏 step2:列出两个句子的并集 西米/喜欢/健身/超超/不/打/游戏 step3:计算词频向量 A:[1,1,1,0,0,0,0] B:[0,1,1,1,1,1,1] s 阅读全文
posted @ 2017-11-03 17:44 郭雪原 阅读(14351) 评论(0) 推荐(0) 编辑
摘要:TF-IDF算法: TF:词频(Term Frequency),即在分词后,某一个词在文档中出现的频率。 IDF:逆文档频率(Inverse Document Frequency)。在词频的基础上给每个词分配权重,如果有三个词的词频一样,但这并不代表这三个词在这篇文章的重要性是一样的,因此还要给这三 阅读全文
posted @ 2017-11-03 16:26 郭雪原 阅读(1524) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示