摘要:
standby namenode无法启动 现象:线上使用的2.5.0 cdh5.3.2版本Hadoop,开启了了NameNode HA,HA采用QJM方式。hadoop的集群的namenode的standby节点宕掉,重启无法启动成功。 1. standby namenode出现异常时的现象 异常现 阅读全文
摘要:
根据时间戳获取kafka的topic的偏移量,结果获取的偏移量量数据组的长度为0,就会出现如下的数组下标越界的异常,实现的原理是使用了kafka的getOffsetsBefore()方法: Exception in thread "main" java.lang.ArrayIndexOutOfBou 阅读全文
该文被密码保护。 阅读全文
摘要:
如何高效的进行数据捉虫? 背景: 在日常工作中,经常会接到用户反馈的问题,形形色色,各不相同,接到客户反馈的第一时,往往不知道如何查起。当这些问题都解决后,发现问题排查定位有一些共性的东西可以总结出来。 一、问题接入 归属分析:一个系统,产品涉及到相关方一般较多(前端,服务端,数据,上游合作方),当 阅读全文
摘要:
目前HVIE里查询如下语句报错: select * from dw.ticket_user_mtime limit 10; 错误如下: 17/07/06 16:45:38 [main]: DEBUG impl.RecordReaderImpl: merge = [{data range [22733 阅读全文
摘要:
In the visualization, spout components are represented as blue, while bolts are colored between green and red depending on their associated capacity metric. The width of the lines between the componen... 阅读全文
摘要:
spark总结 1.Spark的特点: 高可伸缩性 高容错 基于内存计算 支持多种语言:java,scala,python,R 高质量的算法,比MapReduce快100倍 多种调度引擎:可以运行于YARN,Mesos,standalone 等。 2.spark的提供的功能 以及应用场景 | spa 阅读全文
摘要:
kafka各个版本特点介绍和总结 1.1 kafka的功能特点: 分布式消息队列 线性扩展,高可用 以高容错的方式存储海量数据流。 高吞吐量:生成和消费速度非常快 1.2 kafka的使用场景: kafka的使用场景,即kafka的用途。 数据总线(数据管道) Kafka主要用途是数据集成,或者说是 阅读全文
摘要:
spark mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。 局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。 在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量 阅读全文
摘要:
【图数据结构的遍历】java实现广度优先和深度优先遍历 宽度优先搜索(BFS)遍历图需要使用队列queue数据结构; 深度优先搜索(DFS, Depth First Search)的实现 需要使用到栈stack数据结构。 java中虽然有Queue接口,单java并没有给出具体的队列实现类,而Jav 阅读全文