2017 年 8月 17 日随笔档案 - running_wolf

2017年8月17日

教你用java统计目录下所有文档的词频

摘要：本文是统计目录下所有文档的词频top10，非单个文档，包含中文和英文。直接上代码：注：分隔符正则匹配需要根据各自的情况进行定义。当然数据量比较大的时候需要采用大数据计算，比如mapreduce，那样的话会简单很多。阅读全文

posted @ 2017-08-17 16:33 running_wolf 阅读(1337) 评论(0) 推荐(0) 编辑

提交任务到spark（以wordcount为例）

摘要： 1、首先需要搭建好hadoop+spark环境，并保证服务正常。本文以wordcount为例。 2、创建源文件，即输入源。hello.txt文件，内容如下：注：以空格为分隔符 3、然后执行如下命令： hadoop fs -mkdir -p /Hadoop/Input（在HDFS创建目录） hado 阅读全文

posted @ 2017-08-17 11:14 running_wolf 阅读(24368) 评论(0) 推荐(0) 编辑

running_wolf

教你用java统计目录下所有文档的词频

提交任务到spark（以wordcount为例）

导航

公告