摘要: Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join) 一、Map Join作用及原理 作用简单来说,在Map阶段进行join,而不是Common Join那样在Reduce阶段按照join列进行分发后在每个Reduce节点上进行 阅读全文
posted @ 2021-01-19 17:51 Rango_lhl 阅读(1981) 评论(0) 推荐(0) 编辑
摘要: 一、区别 ①本质上相同,都是把Map端数据分类处理后交由Reduce的过程。 ②数据流有所区别,MR按map, spill, merge, shuffle, sort, reduce等各阶段逐一实现。Spark基于DAG数据流,可实现更复杂数据流操作(根据宽/窄依赖实现) ③实现功能上有所区别,MR 阅读全文
posted @ 2021-01-18 14:52 Rango_lhl 阅读(1399) 评论(0) 推荐(0) 编辑
摘要: 搭建宽表作用,就是为了让业务部门的数据分析人员,在日常工作可以直接提取所需指标,快速做出对应专题的数据分析。在实际工作中,数据量及数据源繁多,如果每个数据分析人员都从计算加工到出报告,除了工作效率巨慢也会导致服务器资源紧张。因此建设数据集市层,包含了该宽表层并在非工作时间做自动生成。 本文引用CDN 阅读全文
posted @ 2021-01-14 11:29 Rango_lhl 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 把Flume Source(netcat类型),从终端上不断给Flume Source发送消息,Flume把消息汇集到Sink(avro类型),由Sink把消息推送给Spark Streaming并处理后输出 版本信息:spark2.4.0 Flume 1.7.0 (基于pyspark) 一、Flu 阅读全文
posted @ 2021-01-12 16:28 Rango_lhl 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 数据库小知识学习系列 问题: MySQL InnoDB中,select where xxx=123 for update;该xxx没有索引,是使用表锁还是全部数据加行锁? 答: InnoDB引擎(默认RR隔离级别)中的行级锁是依赖索引实现的,问题条件xxx为非索引字段,所以使用的是表锁。 如若隔离级 阅读全文
posted @ 2021-01-11 14:04 Rango_lhl 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 为配合生产hadoop使用,在本地搭建测试环境,使用docker环境实现(主要是省事~),拉取阿里云已有hadoop镜像基础上,安装hive组件,参考下面两个专栏文章: 克里斯:基于 Docker 构建 Hadoop 平台 docker上从零开始搭建hadoop和hive环境 由于hadoop与hi 阅读全文
posted @ 2020-09-16 15:06 Rango_lhl 阅读(3994) 评论(0) 推荐(1) 编辑
摘要: 目前就职公司数据流转原先流程如上一篇提及:https://www.cnblogs.com/rango-lhl/p/12662473.html 到后期每天同步数据有15G左右,由于生产的机子性能差,导致同步巨慢,影响了平台日常使用,因此做了优化。 ps:公司初期业务为主,数据量也较少,因此机器投入相对 阅读全文
posted @ 2020-08-21 17:58 Rango_lhl 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 1、数据加工pyecharts图实现: 数据源:本地CSV文件 ps:由于是跟生产环境做交互,生产环境指标由HSQL加工,使用存储过程挂后台定时运行,后使用python实现导出及定时分发,本地python接收获取附件解压 2、上传文件至服务器 本地pycharm跑通后,把项目对应文件上传至服务器目录 阅读全文
posted @ 2020-08-10 15:22 Rango_lhl 阅读(2023) 评论(0) 推荐(0) 编辑
摘要: 对现有数据体系整理优化的探索。 目前现有体系为生产数据库为ORACLE,分析平台数据库为基于HADOOP平台开发,两个平台并行运行。 基于业务要求,生产ORACLE按一定期限会删除数据,而分析平台则保存历史所有但是会做了脱敏处理,只满足分析使用,目前架构整理如下: 阅读全文
posted @ 2020-04-08 20:17 Rango_lhl 阅读(390) 评论(0) 推荐(1) 编辑
摘要: 该文涉及Docker下Oracle容器的安装,主机端口的设置实现局域网内终端均能连接上Oracle数据库,图解如下: 一、关于Docker安装oracle容器可以参考下面博文: https://blog.csdn.net/qq_38380025/article/details/80647620 文中 阅读全文
posted @ 2020-02-15 00:24 Rango_lhl 阅读(751) 评论(0) 推荐(0) 编辑