上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 33 下一页

2018年4月3日

Integer对象比较相等

摘要: public class IntegerTest { /*** * 对于Integer var = ? 在 -128到127之间的复制,Integer对象是在IntegerCache.cache产生 * 会复用已有对象,这个区间内的Integer值可以直接使用 == 进行判断 * 但是这个区间之外的 阅读全文

posted @ 2018-04-03 18:30 嘣嘣嚓 阅读(322) 评论(0) 推荐(0) 编辑

2018年3月12日

Spark操作算子本质-RDD的容错

摘要: Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度,如果有两个资源调度的话,master和resourcemanager之间是不通 阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓 阅读(279) 评论(0) 推荐(0) 编辑

Spark集群搭建(local、standalone、yarn)

摘要: Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓 阅读(497) 评论(0) 推荐(0) 编辑

Spark持久化策略

摘要: spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk:是否使用磁盘_useMemory:是否使用内存_useOffHeap:不用堆内存,找tackyon_deserialized:不序列化(序列化可理解为压缩,节省内存磁盘空间,但 阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓 阅读(354) 评论(0) 推荐(0) 编辑

SparkRDD内核

摘要: Spark内核 RDD是基础,是spark中一个基础的抽象,是不可变的,比如我们加载进的数据RDD,如果想更改其中的内容是不允许的;分区的集合,可以并行来计算;RDD类中包含了很多基础的操作,例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久 阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓 阅读(188) 评论(0) 推荐(0) 编辑

Spark初识

摘要: Spark初识 spark是一个快速的统一的引擎,基于内存的运算 spark有一个高级的DAG(有向无环图)引擎,支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作 在一个应用中可以无缝整合spark组件 spark可运 阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓 阅读(207) 评论(0) 推荐(0) 编辑

2018年3月6日

Hadoop集群初始化启动

摘要: hadoop集群初始化启动 启动zookeeper ./zkServer.sh start 启动journalnode ./hadoop-daemon.sh start journalnode 格式化namenode hadoop namenode -format 将节点1上的元数据拷贝到2上 先启 阅读全文

posted @ 2018-03-06 20:59 嘣嘣嚓 阅读(864) 评论(0) 推荐(0) 编辑

centos6.5安装MySQL5.7

摘要: centos6.5安装MySQL5.7 将mysql安装包解压到指定目录,命令如下: tar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz -C /usr/local 进入/usr/local目录: cd /usr/local 为mysql安装目录创 阅读全文

posted @ 2018-03-06 18:57 嘣嘣嚓 阅读(147) 评论(0) 推荐(0) 编辑

2018年2月11日

MapReduce修改输出的文件名

摘要: MapReduce默认输出的文件名称格式如下:part-r-00000 自定义名称,比如editName,则输出的文件名称为:editName-r-0000,此方法没有彻底修改整个文件名,只修改了一部分 方法如下 重写TextOutPutFormat的setOutPutName方法,因为setOut 阅读全文

posted @ 2018-02-11 13:17 嘣嘣嚓 阅读(731) 评论(0) 推荐(0) 编辑

MapReduce分区的使用(Partition)

摘要: MapReduce中的分区默认是哈希分区,根据map输出key的哈希值做模运算,如下 如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件,那就需要自定义实现Partition,自定义规则 举个简单的例子,使用MapReduce做wordcount,但是需要根据单词的长度写入不 阅读全文

posted @ 2018-02-11 12:56 嘣嘣嚓 阅读(974) 评论(0) 推荐(0) 编辑

上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 33 下一页

导航