牵牛花

2017年9月1日

摘要：在chd中的hive中执行 (select count (*)) 或者mr程序都报Error: Java heap space 4、io.sort.mb 的作用排序所使用的内存数量。默认值：100M，需要与mapred.child.java.opts相配默认：-Xmx200m。不能超过ma 阅读全文

posted @ 2017-09-01 19:45 牵牛花阅读(758) 评论(0) 推荐(0) 编辑

Spark Streaming 执行流程

摘要： Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程：客户端提交阅读全文

posted @ 2017-09-01 16:25 牵牛花阅读(866) 评论(0) 推荐(0) 编辑

Scala 中的构造器

摘要： Scala上的从构造器也有一定的限制，Scala编程中写道。 “Scala 里的每一个从构造器的第一个动作都是调用同一个类里面其他的构造器。换句话说就是，每个 Scala 类里的每个从构造器都是以“this(...)”形式开头的。被调用的构造器既可以是主构造器（好像 Rational 这个例子），阅读全文

posted @ 2017-09-01 16:15 牵牛花阅读(334) 评论(0) 推荐(0) 编辑

Spark SQL和DataFrames支持的数据格式

摘要： Spark SQL和DataFrames支持的数据格式阅读全文

posted @ 2017-09-01 16:10 牵牛花阅读(212) 评论(0) 推荐(0) 编辑

StreamingContext.getOrCreate

摘要：经过粗略的实验(一个分区)发现,使用了这个方法之后可以实现不丢失数据阅读全文

posted @ 2017-09-01 16:06 牵牛花阅读(1569) 评论(0) 推荐(0) 编辑

Java heap space cdh 5.11.1

摘要：在执行hive count 查询的时候报错:Error: Java heap space 解决办法是 set io.sort.mb=10; 执行hadoop的Exeample的时候报错,也是java heap space 的问题 Diagnostic Messages for this Task:E 阅读全文

posted @ 2017-09-01 13:30 牵牛花阅读(645) 评论(0) 推荐(0) 编辑

ntpd与ntpdate的区别

摘要：之前配置ntpd的时候搜到一句话，印象很深刻，也觉得很有标题党的效果，就借鉴为标题了：“我认为有几种人是必须不招聘/裁掉的： 1 用ntpdate代替ntpd的人”但具体原因不太懂，总觉得还是用ntpdate比较方便。今天问了红帽技术支持，对方的解释是：ntpd在实际同步时间时是一点点的校准过来时间阅读全文

posted @ 2017-09-01 11:52 牵牛花阅读(229) 评论(0) 推荐(0) 编辑

大数据与时间空间

摘要：上面是flume中hdfs sink中的配置,触发生成一个文件的方式主要有两种达到一定时间生成一个文件,文件达到一定大小生成一个文件, 这种时间和空间作为生成文件的判断条件在redis中也有使用阅读全文

posted @ 2017-09-01 09:48 牵牛花阅读(232) 评论(0) 推荐(0) 编辑

2017年8月31日

spark streaming checkpoint

摘要： Checkpoint机制通过前期对Spark Streaming的理解，我们知道，Spark Streaming应用程序如果不手动停止，则将一直运行下去，在实际中应用程序一般是24小时*7天不间断运行的，因此Streaming必须对诸如系统错误、JVM出错等与程序逻辑无关的错误（failures 阅读全文

posted @ 2017-08-31 19:54 牵牛花阅读(384) 评论(0) 推荐(0) 编辑

scala 基本类型和操作

摘要：基本类型和操作类型说明，与java一致值类型范围 Byte 8位有符号补码整数（-27～27-1） Short 16位有符号补码整数（-215～215-1） Int 32位有符号补码整数（-231～231-1） Long 64位有符号补码整数（-263～263-1） Char 16位无符号Uni 阅读全文

posted @ 2017-08-31 17:10 牵牛花阅读(802) 评论(0) 推荐(0) 编辑

公告