摘要:
应用 :redis 的RDB ,这样redis 可以正常工作,子进程负责把内存写成镜像文件 所有内存权限为read-only,如果,此时有数据写入redis,此时会发生内存写入异常, 内核会把内存异常页复制一份,重新映射给主进程,此页的内存权限是可以写入的。 阅读全文
摘要:
执行启动命令 jar 、wordcount sparkSubmit: yarnclient ->submitApplication-> ResourceManage bin/java 在NodeManager 启动进程,ApplicationMaster ApplicationMaster进程启动后 阅读全文
摘要:
介绍: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、 postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库 中。 导入全部数据: 阅读全文
摘要:
介绍: Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚 合、传输的系统。 简单的说,Flume是实时采集日志的数据采集引擎。 重要组件:Source、Channel、Sink Agent本质上是一个 JVM 进程,该JVM进程控制Event数据流从外部日志生产者 阅读全文
摘要:
1. 架构优化 Hive支持多种执行引擎,分别是 MapReduce、Tez、Spark、Flink。可以通过hivesite.xml文件中的hive.execution.engine属性控制。 矢量化查询执行: 矢量化查询(要求执行引擎为Tez)执行通过一次批量执行1024行而不是每行一行来提 阅读全文