摘要: file-flume-kafka : a1.sources=r1 a1.channels=c1 c2 # configure source a1.sources.r1.type = TAILDIR a1.sources.r1.positionFile = /apps/flume/test/log_p 阅读全文
posted @ 2021-02-23 12:06 小小分析猿 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 拦截器主要分两种:ETL 拦截器、日志类型区分拦截器。 ETL 拦截器主要用于过滤时间戳不合法和 Json 数据不完整的日志日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往 Kafka 的不同Topic。 pom.xml <?xml version="1.0" encoding=" 阅读全文
posted @ 2021-02-23 11:59 小小分析猿 阅读(1302) 评论(0) 推荐(0) 编辑
摘要: 为什么需要自定义UDF, UDTF函数 因为一般event_log的json数据数据较复杂,处理event_log时需要先利用UDF, UDTF函数对其提取操作, 然后导入至dwd_base_event_log表,再根据en将kv数据导入对应的event表 event json数据样本: 16139 阅读全文
posted @ 2021-02-23 11:30 小小分析猿 阅读(544) 评论(0) 推荐(0) 编辑