|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&OLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|

一、流式构建
### --- 流式构建

~~~     实时数据更新是一种普遍的需求,快速分析变化趋势才能做出正确的决策。
~~~     Kylin V1.6 发布了可扩展的 streaming cubing 功能,
~~~     它利用 Hadoop 消费 Kafka 数据的方式构建 cube。
~~~     这种方式构建的Cube能满足分钟级的更新需求。
### --- 构建流程

~~~     步骤:项目 => 定义数据源(Kafka) => 定义Model 
~~~     => 定义Cube => Build Cube => 作业调度(频率高)

二、准备数据源
### --- 准备数据源

~~~     从Kafka消费消息,每条消息都需要包含:维度信息、度量信息、业务时间戳。
~~~     每条消息的数据结构都应该相同,
~~~     并且可以用同一个分析器将每条消息中的维度、度量和时间戳信息提取出来。
~~~     目前默认的分析器为:org.apache.kylin.source.kafka.TimedJsonStreamParser
### --- 在kafka中准备数据源

~~~     # 启动kafka服务
[root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/yanqi/servers/kafka_2.12/config/server.properties
~~~     # 创建名为kylin_streaming_topic的topic,有三个分区,1个副本
[root@hadoop01 ~]# kafka-topics.sh --create --zookeeper hadoop01:2181/myKafka --replication-factor 1 --partitions 3 --topic kylin_streaming_topic1
~~~     # 使用工具,每秒会向以上topic每秒发送100条记录
[root@hadoop02 ~]# kylin.sh org.apache.kylin.source.kafka.util.KafkaSampleProducer --topic kylin_streaming_topic1 --broker hadoop01:9092,hadoop02:9092

~~~     # 检查消息是否成功发送
[root@hadoop02 ~]# kafka-console-consumer.sh --bootstrap-server hadoop01:9092,hadoop02:9092 --topic kylin_streaming_topic1 --from-beginning
### --- 查看通过kylin.sh加载的数据

~~~     # 提取到一条,是json格式的数据,已进行格式化了
{
    "country": "AUSTRALIA",
    "amount": 54.081247423872725,
    "qty": 9,
    "currency": "USD",
    "order_time": 1637319955203,
    "category": "CLOTH",
    "device": "iOS",
    "user": {
        "gender": "Male",
        "id": "5d1a9877-37e1-07e0-8103-8a2804f6fa6b",
        "first_name": "unknown",
        "age": 21
    }
}
三、定义流式数据源
### --- 定义流式数据源

~~~     # 1、定义流式数据源:Add Streaming Table
~~~     # 2、定义Schema
~~~     # 3、定义kafka信息
~~~     # 4、查看定义的流式数据源

 
 
 
 
 
 
 
 
 

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
                                                                                                                                                   ——W.S.Landor

 

 

posted on   yanqi_vip  阅读(18)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示