摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文
摘要:一、Druid案例小结 ### Druid案例总结 ~~~ 在配置摄入源时要设置为True从流的开始进行消费数据,否则在数据源中可能查不到数据 ~~~ Druid的join能力非常有限,分组或者聚合多的场景推荐使用 ~~~ sql支持能力也非常受限 ~~~ 数据的分区组织只有时间序列一种方式 Wal
阅读全文
摘要:一、摄取kafka数据 ### 摄取kafka数据 ~~~ 摄取kafka数据:定义数据摄取规范,json数据要拉平,不用定义Rollup 二、启动数据源 ### 启动数据源 ~~~ 启动数据源 ~~~ 数据查询 三、加载数据源json文件 { "type": "kafka", "spec": {
阅读全文
摘要:一、启动kafka生产者加载数据流 ### 查询数据流记录总数 ~~~ # 查记录总数 select count(*) as recordcount from yanqidruid2 ### 查订单总数 ~~~ # 查订单总数 select count(distinct orderId) as or
阅读全文
摘要:一、编程实现kafka生产者 ### 编程实现kafka生产者:在SparkBigData工程下创建scala程序:KafkaProducerForDruid package cn.yanqi.druid import java.util.Properties import org.apache.k
阅读全文
摘要:一、索引及压缩机制 ### Druid的查询时延低性能好的主要是因为采用了五个技术点: ~~~ 数据预聚合 ~~~ 列式存储、数据压缩 ~~~ Bitmap 索引 ~~~ mmap(内存文件映射方式) ~~~ 查询结果的中间缓存 二、数据聚合 ### 数据预聚合 ~~~ Druid通过一个roll-
阅读全文
摘要:一、需求分析 ### 场景分析 ~~~ 数据量大,需要在这些数据中根据业务需要灵活做查询 ~~~ 实时性要求高 ~~~ 数据实时的推过来,要在秒级对数据进行分析并查询出结果 二、数据分析 ### 数据描述 ~~~ # 数据json串 {"ts":1607499629841,"orderId":"10
阅读全文
摘要:一、索引服务 ### 索引服务 ~~~ 索引服务:数据导入并创建 segments 数据文件的服务 ~~~ 索引服务是一个高可用的分布式服务,采用主从结构作为架构模式,索引服务由三大组件构成 ~~~ overlord 作为主节点 ~~~ middlemanager是从节点 ~~~ peon用于运行一
阅读全文
摘要:一、基础架构 二、Druid 总体包含以下 6 类节点: ### Coordinator node: ~~~ 主要负责历史节点的数据负载均衡,以及通过规则管理数据的生命周期。 ~~~ 协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、 和为了负载均衡移动数据。 ~~~ Coordinator
阅读全文
摘要:一、数据存储 ### 数据存储 ~~~ Druid中的数据存储在被称为DataSource中,DataSource类似RDBMS中的 Table ~~~ 每个DataSource按照时间划分, ~~~ 每个时间范围称为一个Chunk(比如按天分区,则一个chunk为一天) ~~~ 在Chunk中数据
阅读全文
摘要:一、从HDFS中加载数据 ### 在hdfs中创建数据目录 ~~~ # 在kafka中准备配置文件 [root@hadoop02 ~]# hdfs dfs -cat /data/druidlog.dat {"ts":"2021-10-01T00:01:35Z","srcip":"6.6.6.6",
阅读全文
摘要:一、提取参数说明 ### 数据摄取规范 ~~~ dataSchema。指定传入数据的Schema ~~~ ioConfig。指定数据的来源和去向 ~~~ tuningConfig。指定各种摄取参数 { "type": "kafka", "spec": { "ioConfig": Object { .
阅读全文
摘要:一、从Kafka中加载流式数据 ### 从Kafka中加载流式数据 ~~~ 数据及需求说明:Druid典型应用架构:不在Druid中处理复杂的数据转换清洗工作 ### 假设有以下网络流量数据: ~~~ ts:时间戳 ~~~ srcip:发送端 IP 地址 ~~~ srcport:发送端端口号 ~~~
阅读全文
摘要:一、集群部署 ### 环境资源说明 ~~~ 虚拟机每个节点2core、3G ~~~ DeepStorage:Hadoop 2.9.2 ### 部署规划:集群部署采用的分配如下 ~~~ 主节点部署 Coordinator 和 Overlord进程 ~~~ 数据节点运行 Historical 和 Mid
阅读全文
摘要:一、体系架构 ### Druid进程和服务 ~~~ # Coordinator ~~~ 进程管理群集上的数据可用性。 ~~~ 从metastore中读取Segment的元数据,并决定哪些Segments需要被加载到集群中。 ~~~ 使用ZooKeeper查看已经存在的历史节点,了解集群各个节点负载情
阅读全文
摘要:一、Druid 部署 ### 下载Druid版本包并解压版本包 ~~~ # 下载 Druid 安装包、并解压缩: ~~~ # Druid官网:https://druid.apache.org/ [root@hadoop01 ~]# cd /opt/yanqi/software/ ~~~ # 官网源下
阅读全文
摘要:一、Druid概述 ### 什么是Druid ~~~ # 数据分析的基础架构可以分为以下几类: ~~~ 使用Hadoop/Spark进行分析 ~~~ 将Hadoop/Spark的结果导入 RDBMS 中提供数据分析 ~~~ 将结果保存到容量更大的 NoSQL 数据库中,解决数据分析的存储瓶颈,例如:
阅读全文
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of
阅读全文