2017年8月17日

教你用java统计目录下所有文档的词频

摘要: 本文是统计目录下所有文档的词频top10,非单个文档,包含中文和英文。 直接上代码: 注:分隔符正则匹配需要根据各自的情况进行定义。 当然数据量比较大的时候需要采用大数据计算,比如mapreduce,那样的话会简单很多。 阅读全文

posted @ 2017-08-17 16:33 running_wolf 阅读(1335) 评论(0) 推荐(0) 编辑

提交任务到spark(以wordcount为例)

摘要: 1、首先需要搭建好hadoop+spark环境,并保证服务正常。本文以wordcount为例。 2、创建源文件,即输入源。hello.txt文件,内容如下: 注:以空格为分隔符 3、然后执行如下命令: hadoop fs -mkdir -p /Hadoop/Input(在HDFS创建目录) hado 阅读全文

posted @ 2017-08-17 11:14 running_wolf 阅读(24329) 评论(0) 推荐(0) 编辑

导航