摘要: 抛砖引玉,先根据特征值group by,统计每个特征值出现次数,然后reduce到一个文件,根据一个文件来统计吧,毕竟,你知道多个桶,那么每个桶多少个样本就是确定了,数数,数到一个桶样本的时候停止,就是一个阈值呗 阅读全文
posted @ 2018-11-15 19:36 dmesg 阅读(367) 评论(0) 推荐(0) 编辑