摘要:
####1.Spark JVM参数优化设置 Spark JVM的参数优化设置适用于Spark的所有模块,包括SparkSQL、SparkStreaming、SparkRdd及SparkML,主要设置以下几个值: spark.yarn.driver.memoryOverhead #driver端最大的 阅读全文
摘要:
####1.说明 druid支持获取数据种类较多,包括本地离线数据,hdfs数据和kafka实时流数据。在实际基于hadoop生态系统的大数据开发应用中,获取hdfs数据和kafka流式数据较为常见。本篇文档着重说明获取kafka和hdfs数据的实例。 想要获取什么样类型的数据,就需要在配置文件配置 阅读全文
摘要:
####1.节点服务规划 master:coordinator,overlord slave1:historical,middle_manager slave2:router,broker ####2.下载安装包解压 从druid官网(https://druid.apache.org/downloa 阅读全文
摘要:
###1.服务器信息 192.168.195.136 master 192.168.195.137 slave1 192.168.195.139 slave2 ###2.主要配置 ####第一步 上传es安装包到master节点的指定的目录,这里安装版本是elasticsearch-5.3.3 解压 阅读全文
摘要:
###1.大数据架构 说明: 1.该大数据平台采用的阿里云服务器,所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark,部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架,模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台 阅读全文
摘要:
###1.数据治理系统架构 说明: 1.Flume采用的三个client实时监控三个服务器的磁盘路径,七个server提高负载均衡和拉取数据的能力,采用load_balance机制将数据Sink到kafka,其中source zip方式flume官方不支持,需要开发自定义source 2.对于历史数 阅读全文
摘要:
1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data 阅读全文
摘要:
1.写在前面 在 对流式数据处理过程中,往往是spark streaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中,如果是普通的rdd则API为 ,如果是PairRDD则API为 。当然高版本的spa 阅读全文
摘要:
1.写在前面 在大数据流式和实时数据计算方面,目前大多采用 和`kafka+flink`,这两种方式的不同在于组件的不同,spark是离线批和流式一体的大数据分布式计算引擎,而flink最初是为流式和实时计算而生的,所以在流式和实时上更加有优势。而随着flink不断的更新逐渐对批的支持也非常好。这两 阅读全文
摘要:
1.摘要 如果要将企业应用系统按照技术或数据按时间进行划分的话,那么可以以2008年Google推出的分布式文件系统DFS为一个划分标准,2008年之前,由于通信信息技术的弊端,还属于PC互联网时代,整个互联网产生的数据和现在相比只是量级分之一,所以基本上是传统的企业应用系统,将数据存储在RDBMS 阅读全文