摘要: 学习Hadoop 实现TF-IDF 算法,使用的是CDH5.13.1 VM版本,Hadoop用的是2.6.0的jar包,Maven中增加如下即可 代码如下: 整体实现算是比较简单,第一个MR计算idf,map是统计每个文档出现过的词,都记成1次,然后reducer统计所有的,这样就得到了每一个词的i 阅读全文
posted @ 2018-01-14 22:36 EvilTuzki 阅读(277) 评论(0) 推荐(0) 编辑