上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页
摘要: 1、配置文件config.properties # Kafka配置 kafka.broker.list = hadoop300:9092,hadoop301:9092,hadoop302:9092 # Redis配置 redis.host=hadoop300 redis.port=6379 2、读取 阅读全文
posted @ 2020-08-27 10:49 hyunbar 阅读(1349) 评论(0) 推荐(0) 编辑
摘要: 1、POM依赖 <dependencies> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>5.3.3</version> </dependency> <dependency> 阅读全文
posted @ 2020-08-27 10:40 hyunbar 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 1、修改Linux配置 为什么要修改linux配置? 默认elasticsearch是单机访问模式,就是只能自己访问自己。 但是我们之后一定会设置成允许应用服务器通过网络方式访问。 这时,elasticsearch就会因为嫌弃单机版的低端默认配置而报错,甚至无法启动。 所以我们在这里就要把服务器的一 阅读全文
posted @ 2020-08-26 09:27 hyunbar 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 1、yum安装 1)卸载mariadb rpm -qa | grep mariadb | xargs rpm -e --nodeps 2)下载msql5.7 yum源 wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noa 阅读全文
posted @ 2020-08-21 15:55 hyunbar 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 1、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 是 Snappy 无 Snappy . 阅读全文
posted @ 2020-08-19 09:59 hyunbar 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1、相关函数 1.1 窗口函数 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFAULT) :用于统计窗口内往后第n行值。 第一个参数为列名, 第二个参数为往下第n行(可选,默认为1), 第 阅读全文
posted @ 2020-08-18 17:50 hyunbar 阅读(3407) 评论(0) 推荐(0) 编辑
摘要: 本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程; 一、什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确 阅读全文
posted @ 2020-08-17 16:08 hyunbar 阅读(1046) 评论(0) 推荐(0) 编辑
摘要: 如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。 真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗 阅读全文
posted @ 2020-08-17 13:51 hyunbar 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 1、Map阶段 增大缓冲区的大小:默认100M,可以改为200 增大缓冲区的溢写百分比:默认0.8,可以改为0.9 减少溢写文件的merge次数 采用combiner提前预聚合,减少IO。(不影响业务逻辑的前提下,只能加减,不能做乘除等复杂聚合) 2、Reduce阶段 合理设置map和reduce数 阅读全文
posted @ 2020-08-11 17:43 hyunbar 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1、Flink参数配置 jobmanger.rpc.address:jobmanger的地址 jobmanger.rpc.port:jobmanger的端口 jobmanager.heap.mb:jobmanager的堆内存大小。不建议配的太大,1-2G足够。 taskmanager.heap.mb 阅读全文
posted @ 2020-08-11 09:19 hyunbar 阅读(8257) 评论(3) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页