摘要:
简介 Flink是一个低延迟、高吞吐、统一的大数据计算引擎, Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。 同时Flink提供了一个Exactly once的一致性语义, 保证了数据的正确性。(对比其他: At most once, At least once) 阅读全文
摘要:
简介 Apache Kylin(Extreme OLAP Engine for Big Data)是一个开源的分布式 分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准 SQL查询及多维分析(OLAP)功能,提供亚秒级的交互式分析能力。 Apache Kylin是一个开源的分布 阅读全文
摘要:
为何移除持久代 它的大小是在启动时固定好的, 很难进行调优 XX:MaxPermSize(默认64M) HotSpot 的内部类型也是Java对象: 它可能会在Full GC中被移动, 同时它对应用不透明, 且是非强类型的, 难以跟踪调试, 还需要存储元数据信息 (meta metadata) 简化 阅读全文
摘要:
什么是死锁? 如果一个进程集合中的每个进程都在等待只能只能有该集合中的其他一个进程才能引发的事件, 这种情况就是死锁。 简单举例 资源 A 与 资源 B 都是不可剥夺资源 进程 C 已经申请到资源A, 进程D已经申请到了资源B 进程 C 此时申请资源B, 而进程D恰好申请了资源A 由于资源已被占用, 阅读全文
摘要:
简介 Oozie 是用于 Hadoop 平台的开源的工作流调度引擎。 用于管理 Hadoop 属于web应用程序, 由 Oozie client 和 Oozie Server 两个组件构成。 Oozie Server 运行于 Java Servlet容器 (Tomcat) 中的 web 程序。 作用 阅读全文
摘要:
OLAP (Online analytical processing)[联机分析处理] 1. 起源 数据库概念最初源于1962年Kenneth Iverson发表的名为“A Programming Language” (APL)的著作,它第一次提出了处理操作和多维变量的的数学表达式,后来APL语言由 阅读全文
摘要:
1. 简介 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 是CDH平台首选的PB级大数据实时查询分析引擎 2. Impala 优势 基于内存进行计算, 能够对 PB 级数据进行 阅读全文
摘要:
垃圾回收 GC 并不是 Java 语言的伴生产物。诞生于1960年的Lisp语言(MIT)才是第一门真正使用内存动态分配 和 GC 技术的语言。 为何要去了解 GC 和 内存分配, 换言之, 什么场景下需要对 GC 的参数进行调整呐? 使用成型技术框架 (比如 Spark, 特别耗内存)时内存溢出, 阅读全文
摘要:
1. 资源调优 (1). 在部署 spark 集群中指定资源分配的默认参数 在 spark 安装包的 conf 下的 spark env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCES 每台机器启动 worker 数 阅读全文
摘要:
基本概念: DW (Data Warehouse) 是一个面向主题的(Subject Oriented), 集成的(Integrated), 相对稳定的(Non Volatile), 反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support 阅读全文