随笔档案「2015年2月」 - XIAO的博客

将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

摘要：import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import jav... 阅读全文

posted @ 2015-02-11 16:38 XIAO的博客阅读(993) 评论(0) 推荐(0)

Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8

摘要：package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apa... 阅读全文

posted @ 2015-02-09 11:52 XIAO的博客阅读(3221) 评论(0) 推荐(0)

java生成随机大数据文件

摘要：package iie.udps.test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.Outp... 阅读全文

posted @ 2015-02-09 11:48 XIAO的博客阅读(1260) 评论(0) 推荐(0)

spark读hdfs文件实现wordcount并将结果存回hdfs

摘要：package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.a... 阅读全文

posted @ 2015-02-09 11:45 XIAO的博客阅读(2810) 评论(0) 推荐(0)

spark streaming 实现接收网络传输数据进行WordCount功能

摘要：package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunctio... 阅读全文

posted @ 2015-02-09 11:42 XIAO的博客阅读(866) 评论(0) 推荐(0)

spark mllib k-means算法实现

摘要：package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;... 阅读全文

posted @ 2015-02-09 11:39 XIAO的博客阅读(1049) 评论(0) 推荐(0)

XIAO的博客

02 2015 档案