嘣嘣嚓

Integer对象比较相等

摘要： public class IntegerTest { /*** * 对于Integer var = ? 在 -128到127之间的复制，Integer对象是在IntegerCache.cache产生 * 会复用已有对象，这个区间内的Integer值可以直接使用 == 进行判断 * 但是这个区间之外的阅读全文

posted @ 2018-04-03 18:30 嘣嘣嚓阅读(322) 评论(0) 推荐(0) 编辑

Spark操作算子本质-RDD的容错

摘要： Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度，如果有两个资源调度的话，master和resourcemanager之间是不通阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓阅读(279) 评论(0) 推荐(0) 编辑

Spark集群搭建（local、standalone、yarn）

摘要： Spark集群搭建 local本地模式下载安装包解压即可使用，测试（2.2版本）./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓阅读(497) 评论(0) 推荐(0) 编辑

Spark持久化策略

摘要： spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk：是否使用磁盘_useMemory：是否使用内存_useOffHeap：不用堆内存，找tackyon_deserialized：不序列化（序列化可理解为压缩，节省内存磁盘空间，但阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓阅读(354) 评论(0) 推荐(0) 编辑

SparkRDD内核

摘要： Spark内核 RDD是基础,是spark中一个基础的抽象，是不可变的，比如我们加载进的数据RDD，如果想更改其中的内容是不允许的；分区的集合，可以并行来计算；RDD类中包含了很多基础的操作，例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓阅读(188) 评论(0) 推荐(0) 编辑

Spark初识

摘要： Spark初识 spark是一个快速的统一的引擎，基于内存的运算 spark有一个高级的DAG(有向无环图)引擎，支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作在一个应用中可以无缝整合spark组件 spark可运阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓阅读(207) 评论(0) 推荐(0) 编辑

Hadoop集群初始化启动

摘要： hadoop集群初始化启动启动zookeeper ./zkServer.sh start 启动journalnode ./hadoop-daemon.sh start journalnode 格式化namenode hadoop namenode -format 将节点1上的元数据拷贝到2上先启阅读全文

posted @ 2018-03-06 20:59 嘣嘣嚓阅读(864) 评论(0) 推荐(0) 编辑

centos6.5安装MySQL5.7

摘要： centos6.5安装MySQL5.7 将mysql安装包解压到指定目录，命令如下： tar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz -C /usr/local 进入/usr/local目录： cd /usr/local 为mysql安装目录创阅读全文

posted @ 2018-03-06 18:57 嘣嘣嚓阅读(147) 评论(0) 推荐(0) 编辑

MapReduce修改输出的文件名

摘要： MapReduce默认输出的文件名称格式如下：part-r-00000 自定义名称，比如editName，则输出的文件名称为：editName-r-0000，此方法没有彻底修改整个文件名，只修改了一部分方法如下重写TextOutPutFormat的setOutPutName方法，因为setOut 阅读全文

posted @ 2018-02-11 13:17 嘣嘣嚓阅读(731) 评论(0) 推荐(0) 编辑

MapReduce分区的使用(Partition)

摘要： MapReduce中的分区默认是哈希分区，根据map输出key的哈希值做模运算，如下如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件，那就需要自定义实现Partition，自定义规则举个简单的例子，使用MapReduce做wordcount，但是需要根据单词的长度写入不阅读全文

posted @ 2018-02-11 12:56 嘣嘣嚓阅读(974) 评论(0) 推荐(0) 编辑