教你用java统计目录下所有文档的词频
摘要:
本文是统计目录下所有文档的词频top10,非单个文档,包含中文和英文。 直接上代码: 注:分隔符正则匹配需要根据各自的情况进行定义。 当然数据量比较大的时候需要采用大数据计算,比如mapreduce,那样的话会简单很多。 阅读全文
posted @ 2017-08-17 16:33 running_wolf 阅读(1337) 评论(0) 推荐(0) 编辑
posted @ 2017-08-17 16:33 running_wolf 阅读(1337) 评论(0) 推荐(0) 编辑
posted @ 2017-08-17 11:14 running_wolf 阅读(24368) 评论(0) 推荐(0) 编辑