spark textFile 困惑与解释
摘要:在编写spark测试应用时, 会用到sc.textFile(path, partition) 当配置为spark分布式集群时,当你读取本地文件作为输入时, 需要将文件存放在每台work节点上。 这时会有困惑,spark在读取文件时,是每台worker节点都把文件读入? 然后在进行分配? 会不会出现重
阅读全文
posted @
2017-01-22 10:20
duanxz
阅读(14060)
推荐(1) 编辑
JVM插码之六:jacoco插码及问题“$jacocodata 属性 Method not found: is$jacocoData”
摘要:在使用jacoco统计自动化代码覆盖率 jacoco统计自动化代码覆盖率1. 简介1.1. 什么是JacocoJacoco是一个开源的代码覆盖率工具,可以嵌入到Ant 、Maven中,并提供了EclEmma Eclipse插件,也可以使用JavaAgent技术监控Java程序。很多第三方的工具提供了
阅读全文
posted @
2017-01-22 10:19
duanxz
阅读(3827)
推荐(0) 编辑
Parquet列式存储格式
摘要:Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时Twitter的日增数据量达到压缩之后的100TB+,存储在HD
阅读全文
posted @
2017-01-21 00:11
duanxz
阅读(2205)
推荐(0) 编辑
RDD之七:Spark容错机制
摘要:引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太
阅读全文
posted @
2017-01-20 23:54
duanxz
阅读(9090)
推荐(3) 编辑
RDD之六:Action算子
摘要:本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。 无输出 foreach 对RDD中的每个元素都应用f函数操作,不返回RDD
阅读全文
posted @
2017-01-20 20:48
duanxz
阅读(1197)
推荐(0) 编辑
RDD之四:Value型Transformation算子
摘要:处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型
阅读全文
posted @
2017-01-20 20:46
duanxz
阅读(921)
推荐(0) 编辑
RDD之三:RDD创建方式
摘要:RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD
阅读全文
posted @
2017-01-20 20:36
duanxz
阅读(2213)
推荐(0) 编辑
RDD之二:原理
摘要:RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已
阅读全文
posted @
2017-01-20 20:35
duanxz
阅读(761)
推荐(0) 编辑
服务中台
摘要:其实腾讯并不是最早弄中台的,但今年中台是被腾讯带火的。国内最早弄中台的公司是阿里巴巴!说到阿里巴巴的中台就不得不说到芬兰的一家游戏公司Supercell! 芬兰游戏公司Supercell 2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的移动游戏公司Supercell。Superce
阅读全文
posted @
2017-01-20 18:18
duanxz
阅读(779)
推荐(0) 编辑
spark api之二:常用示例
摘要:1、启动spark shell,在doc窗口上打开spark-shell(环境安装见:二、Spark在Windows下的环境搭建) 并行化scala集合(Parallelize) 并行化scala集合(Parallelize) //加载数据1~10 val num=sc.parallelize(1
阅读全文
posted @
2017-01-20 18:17
duanxz
阅读(305)
推荐(0) 编辑
MySQL优化技巧之四:mysql数据库开发常见问题及优化[转]
摘要:mysql 数据库是被广泛应用的关系型数据库,其体积小、支持多处理器、开源并免费的特性使其在 Internet 中小型网站中的使用率尤其高。在使用 mysql 的过程中不规范的 SQL 编写、非最优的策略选择都可能导致系统性能甚至功能上的缺陷。 恰巧就在前几天,本人所在公司的云事业部举办了一场关于
阅读全文
posted @
2017-01-11 20:53
duanxz
阅读(592)
推荐(0) 编辑
OS信号实现Java异步通知
摘要:OS信号实现Java异步通知本文将结合操作系统的信号机制,来尝试实现一个简单的,不依赖功能环境的Java异步通知功能。没有特殊说明,本文所有的示例,都是基于Linux。信号简介信号是在软件层次上对中断机制的一种模拟,在原理上,一个进程收到一个信号与处理器收到一个中断请求可以说是一样的。通俗来讲,信号
阅读全文
posted @
2017-01-11 20:47
duanxz
阅读(870)
推荐(0) 编辑
cpu监控之二:dstat
摘要:首先我们使用dstat命令来查看下我们的CPU情况,他能够实时的输出我们的信息, 结果说明: cpu:hiq、siq分别为硬中断和软中断次数 system:int、csw分别为系统的中断次数(interrupt)和上下文切换次数(context switch)。 二、介绍 dstat 是一个可以取代
阅读全文
posted @
2017-01-11 20:15
duanxz
阅读(3583)
推荐(0) 编辑
Linux strace命令
摘要:简介 strace常用来跟踪进程执行时的系统调用和所接收的信号。 在Linux世界,进程不能直接访问硬件设备,当进程需要访问硬件设备(比如读取磁盘文件,接收网络数据等等)时,必须由用户态模式切换至内核态模式,通 过系统调用访问硬件设备。strace可以跟踪到一个进程产生的系统调用,包括参数,返回值,
阅读全文
posted @
2017-01-11 16:42
duanxz
阅读(426)
推荐(0) 编辑
cpu监控之三:mpstat命令
摘要:mpstat是MultiProcessor Statistics的缩写,是实时系统监控工具。报告CPU的一些统计信息,这些信息存放在/proc/stat文件中。在多CPUs系统里,其不但能查看所有CPU的平均状况信息,而且能够查看特定CPU的信息。 语法: mpstat [-P {|ALL}] [i
阅读全文
posted @
2017-01-11 12:39
duanxz
阅读(3980)
推荐(1) 编辑
linux中uptime命令查看linux系统负载
摘要:阅读目录 uptime cat /proc/loadavg 何为系统负载呢? 进阶参考 阅读目录 uptime cat /proc/loadavg 何为系统负载呢? 进阶参考 uptime 另外还有一个参数 -V(大写),是用来查询版本的 procps是一个实用程序包,主要包括ps top kill
阅读全文
posted @
2017-01-11 10:52
duanxz
阅读(462)
推荐(0) 编辑
Linux系统中的load average
摘要:1. load average 定义 linux系统中的Load对当前CPU工作量的度量。简单的说是进程队列的长度。 Load Average 就是一段时间 (1 分钟、5分钟、15分钟) 内平均 Load 。 通过系统命令"w"查看当前load average情况 上边0.31,0.30,0.31
阅读全文
posted @
2017-01-11 10:47
duanxz
阅读(466)
推荐(0) 编辑
RocketMQ之一:RocketMQ整体介绍
摘要:常用MQ介绍及对比--《MQ详解及四大MQ比较》 RocketMQ环境搭建--《RocketMQ之三:RocketMQ集群环境搭建》 RocketMQ物理部署结构 RocketMQ的消息存储--《RocketMQ之六:RocketMQ消息存储》 RocketMQ各角色基本数据结构 RocketMQ生
阅读全文
posted @
2017-01-10 22:59
duanxz
阅读(10786)
推荐(8) 编辑
服务注册发现Eureka之二:高可用服务注册中心
摘要:前言 在Spring Cloud系列文章的开始,我们就介绍了服务注册与发现,其中,主要演示了如何构建和启动服务注册中心Eureka Server,以及如何将服务注册到Eureka Server中,但是在之前的示例中,这个服务注册中心是单点的,显然这并不适合应用于线上生产环境,那么下面在前文的基础上,
阅读全文
posted @
2017-01-09 18:20
duanxz
阅读(820)
推荐(0) 编辑
可重入锁 公平锁 读写锁、CLH队列、CLH队列锁、自旋锁、排队自旋锁、MCS锁、CLH锁
摘要:1.可重入锁 如果锁具备可重入性,则称作为可重入锁。 (转)可重入和不可重入 2011-10-04 21:38 这种情况出现在多任务系统当中,在任务执行期间捕捉到信号并对其进行处理时,进程正在执行的指令序列就被信号处理程序临时中断。如果从信号处理程序返回,则继续执行进程断点处的正常指令序列,从重新恢
阅读全文
posted @
2017-01-03 10:44
duanxz
阅读(3383)
推荐(0) 编辑