摘要:
在chd中 的hive中执行 (select count (*)) 或者mr程序都报Error: Java heap space 4、io.sort.mb 的作用 排序所使用的内存数量。 默认值:100M,需要与mapred.child.java.opts相配 默认:-Xmx200m。 不能超过ma 阅读全文
摘要:
Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。 本节描述了Spark Streaming作业的执行流程。 图1 Spark Streaming作业的执行流程 具体流程: 客户端提交 阅读全文
摘要:
Scala上的从构造器也有一定的限制,Scala编程中写道。 “Scala 里的每一个从构造器的第一个动作都是调用同一个类里面其他的构造器。换句话说 就是,每个 Scala 类里的每个从构造器都是以“this(...)”形式开头的。被调用的构造器既可以是主构造器(好像 Rational 这个例子), 阅读全文
摘要:
Spark SQL和DataFrames支持的数据格式 阅读全文
摘要:
经过粗略的实验(一个分区)发现,使用了这个方法之后可以实现不丢失数据 阅读全文
摘要:
在执行hive count 查询的时候报错:Error: Java heap space 解决办法是 set io.sort.mb=10; 执行hadoop的Exeample的时候报错,也是java heap space 的问题 Diagnostic Messages for this Task:E 阅读全文
摘要:
之前配置ntpd的时候搜到一句话,印象很深刻,也觉得很有标题党的效果,就借鉴为标题了:“我认为有几种人是必须不招聘/裁掉的: 1 用ntpdate代替ntpd的人”但具体原因不太懂,总觉得还是用ntpdate比较方便。今天问了红帽技术支持,对方的解释是:ntpd在实际同步时间时是一点点的校准过来时间 阅读全文
摘要:
上面是flume中hdfs sink中的配置,触发生成一个文件的方式主要有两种达到一定时间生成一个文件,文件达到一定大小生成一个文件, 这种时间和空间作为生成文件的判断条件在redis中也有使用 阅读全文