技术即艺术

2020年9月28日

摘要： ####1.Spark JVM参数优化设置 Spark JVM的参数优化设置适用于Spark的所有模块，包括SparkSQL、SparkStreaming、SparkRdd及SparkML，主要设置以下几个值： spark.yarn.driver.memoryOverhead #driver端最大的阅读全文

posted @ 2020-09-28 19:11 技术即艺术阅读(1106) 评论(0) 推荐(0) 编辑

2020年9月27日

大数据时序分析组件druid获取kafka和hdfs数据示例

摘要： ####1.说明 druid支持获取数据种类较多，包括本地离线数据，hdfs数据和kafka实时流数据。在实际基于hadoop生态系统的大数据开发应用中，获取hdfs数据和kafka流式数据较为常见。本篇文档着重说明获取kafka和hdfs数据的实例。想要获取什么样类型的数据，就需要在配置文件配置阅读全文

posted @ 2020-09-27 16:20 技术即艺术阅读(925) 评论(0) 推荐(0) 编辑

2020年9月13日

大数据时序分析组件Druid集群安装配置部署

摘要： ####1.节点服务规划 master:coordinator,overlord slave1:historical,middle_manager slave2:router,broker ####2.下载安装包解压从druid官网(https://druid.apache.org/downloa 阅读全文

posted @ 2020-09-13 14:58 技术即艺术阅读(935) 评论(0) 推荐(1) 编辑

2020年6月2日

ElasticSearch集群部署及可视化工具cerebro安装

摘要： ###1.服务器信息 192.168.195.136 master 192.168.195.137 slave1 192.168.195.139 slave2 ###2.主要配置 ####第一步上传es安装包到master节点的指定的目录，这里安装版本是elasticsearch-5.3.3 解压阅读全文

posted @ 2020-06-02 17:36 技术即艺术阅读(1520) 评论(0) 推荐(0) 编辑

2020年5月28日

WW大数据平台架构

摘要： ###1.大数据架构说明： 1.该大数据平台采用的阿里云服务器，所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark，部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架，模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台阅读全文

posted @ 2020-05-28 11:26 技术即艺术阅读(1378) 评论(0) 推荐(0) 编辑

YNGAT-JZ数据治理架构

摘要： ###1.数据治理系统架构说明： 1.Flume采用的三个client实时监控三个服务器的磁盘路径，七个server提高负载均衡和拉取数据的能力，采用load_balance机制将数据Sink到kafka，其中source zip方式flume官方不支持，需要开发自定义source 2.对于历史数阅读全文

posted @ 2020-05-28 10:40 技术即艺术阅读(370) 评论(0) 推荐(0) 编辑

2020年5月9日

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

摘要： 1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data 阅读全文

posted @ 2020-05-09 18:11 技术即艺术阅读(12366) 评论(0) 推荐(1) 编辑

spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

摘要： 1.写在前面在对流式数据处理过程中，往往是spark streaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中，如果是普通的rdd则API为，如果是PairRDD则API为。当然高版本的spa 阅读全文

posted @ 2020-05-09 17:22 技术即艺术阅读(3443) 评论(2) 推荐(0) 编辑

2020年3月28日

Spark streaming消费kafka数据通过手动管理kafkaoffset保证实时流消费数据的一致性

摘要： 1.写在前面在大数据流式和实时数据计算方面，目前大多采用和`kafka+flink`,这两种方式的不同在于组件的不同，spark是离线批和流式一体的大数据分布式计算引擎，而flink最初是为流式和实时计算而生的，所以在流式和实时上更加有优势。而随着flink不断的更新逐渐对批的支持也非常好。这两阅读全文

posted @ 2020-03-28 20:23 技术即艺术阅读(1742) 评论(2) 推荐(0) 编辑

2020年2月16日

大数据之优化

摘要： 1.摘要如果要将企业应用系统按照技术或数据按时间进行划分的话，那么可以以2008年Google推出的分布式文件系统DFS为一个划分标准，2008年之前，由于通信信息技术的弊端，还属于PC互联网时代，整个互联网产生的数据和现在相比只是量级分之一，所以基本上是传统的企业应用系统，将数据存储在RDBMS 阅读全文

posted @ 2020-02-16 23:50 技术即艺术阅读(2630) 评论(0) 推荐(0) 编辑

公告