摘要: 一个实战让你搞懂Dockerfile 在认识Dockerfile的基础功能之后,即一个用基础镜像来构建新镜像的文本文件,就需要在实际工作中使用其灵活便利的操作来提升我们的工作效率了,这里演示在Tomcat里运行一个程序的过程,以此来感受Docker带给我们的便利。 阅读全文
posted @ 2022-04-23 23:19 选手一号位 阅读(175) 评论(0) 推荐(0) 编辑
摘要: YARN线上动态资源调优 线上Hadoop集群资源严重不足,可能存在添加磁盘,添加CPU,添加节点的操作,那么在添加这些硬件资源之后,我们的集群是不能立马就利用上这些资源的,需要修改集群Yarn资源配置,然后使其生效。 阅读全文
posted @ 2022-04-21 22:18 选手一号位 阅读(290) 评论(0) 推荐(0) 编辑
摘要: Docker提交镜像-数据卷-可视化 在熟悉完Docker的安装及基本命令使用之后,我们开始学习下Docker的进阶操作:包括但不限于新建Docker镜像,数据卷的挂载,以及Docker的可视化等。 阅读全文
posted @ 2022-03-29 22:05 选手一号位 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 5.Flink实时项目之业务数据准备 在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中。在本文中,我们将把业务数据也发送到对应的kafka主题中。 通过maxwell采集业务数据变化,相当于是ods数据,把采集的数据发送到kafka的topic(ods_base_db_m)中,然后flink从kafka消费数据,这个过程有维度数据,就放到hbase中,其他事实数据再发送给kafka作为dwd层。flink消费kafka数据可以做一些简单的ETL处理,比如过滤空值,长度限制。 阅读全文
posted @ 2022-02-19 22:16 选手一号位 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 公司自建的Hadoop集群,后期使用阿里的Maxcompute,就需要迁移数据到新环境中,阿里提供众多的迁移方案,在经过我们的实践后,最终选择了MMA,迁移数据Hive到Maxcompute。 阅读全文
posted @ 2022-08-03 13:57 选手一号位 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 11.Flink实时项目之支付宽表 支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况。 所以本次宽表的核心就是要把支付表的信息与订单明细关联上。 阅读全文
posted @ 2022-04-17 11:49 选手一号位 阅读(290) 评论(0) 推荐(0) 编辑
摘要: Dockerfile入门 在之前Docker的使用中,我们直接从仓库下载需要的镜像到本地,然后稍加配置就可以应用了,通常从仓库下载下来的镜像都是通用的,无任何私有化的东西,我们拿过来就需要加很多的配置,每次使用就很麻烦。如果我们想定制化某一个镜像可以吗?比如Nginx,我不想每次使用都加很多的配置,而是定制化后,我再按照定制化的规则去使用,及时的安装部署我需要的Nginx环境。DockerFile就是做这个工作的,一个用基础镜像来构建新镜像的文本文件,里面包含构建镜像需要的各种指令。 阅读全文
posted @ 2022-04-05 23:32 选手一号位 阅读(366) 评论(0) 推荐(1) 编辑
摘要: 10.Flink实时项目之订单维度表关联 在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表。但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join。外部数据源的查询常常是流式计算的性能瓶颈,所以我们在查询hbase维度数据的基础上做一些优化及封装。 阅读全文
posted @ 2022-03-31 23:05 选手一号位 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 9.Flink实时项目之订单宽表 订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户、地区、商品、品类、品牌等等。为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合成为一张订单的宽表。那究竟哪些数据需要和订单整合在一起? 阅读全文
posted @ 2022-03-17 22:53 选手一号位 阅读(750) 评论(0) 推荐(0) 编辑
摘要: Docker安装与基本命令使用 Docker在CentOS上的安装与基本命令使用 阅读全文
posted @ 2022-03-10 23:02 选手一号位 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 8.Flink实时项目之CEP计算访客跳出 首先要识别哪些是跳出行为,要把这些跳出的访客最后一个访问的页面识别出来。那么就要抓住几个特征 阅读全文
posted @ 2022-03-09 22:51 选手一号位 阅读(411) 评论(0) 推荐(0) 编辑