02 2015 档案

将存储在本地的大量分散的小文件,合并并保存在hdfs文件系统中
摘要:import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import jav... 阅读全文

posted @ 2015-02-11 16:38 XIAO的博客 阅读(980) 评论(0) 推荐(0) 编辑

Spark读取HDFS文件,文件格式为GB2312,转换为UTF-8
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apa... 阅读全文

posted @ 2015-02-09 11:52 XIAO的博客 阅读(3204) 评论(0) 推荐(0) 编辑

java生成随机大数据文件
摘要:package iie.udps.test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.Outp... 阅读全文

posted @ 2015-02-09 11:48 XIAO的博客 阅读(1243) 评论(0) 推荐(0) 编辑

spark读hdfs文件实现wordcount并将结果存回hdfs
摘要:package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.a... 阅读全文

posted @ 2015-02-09 11:45 XIAO的博客 阅读(2781) 评论(0) 推荐(0) 编辑

spark streaming 实现接收网络传输数据进行WordCount功能
摘要:package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio... 阅读全文

posted @ 2015-02-09 11:42 XIAO的博客 阅读(853) 评论(0) 推荐(0) 编辑

spark mllib k-means算法实现
摘要:package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;... 阅读全文

posted @ 2015-02-09 11:39 XIAO的博客 阅读(1034) 评论(0) 推荐(0) 编辑

导航

统计

点击右上角即可分享
微信分享提示