Rango_lhl - 博客园

2021年1月

摘要： Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）一、Map Join作用及原理作用简单来说，在Map阶段进行join，而不是Common Join那样在Reduce阶段按照join列进行分发后在每个Reduce节点上进行阅读全文

posted @ 2021-01-19 17:51 Rango_lhl 阅读(2178) 评论(0) 推荐(0)

简要MR与Spark在Shuffle区别

摘要：一、区别 ①本质上相同，都是把Map端数据分类处理后交由Reduce的过程。 ②数据流有所区别，MR按map, spill, merge, shuffle, sort, reduce等各阶段逐一实现。Spark基于DAG数据流，可实现更复杂数据流操作（根据宽/窄依赖实现） ③实现功能上有所区别，MR 阅读全文

posted @ 2021-01-18 14:52 Rango_lhl 阅读(1546) 评论(0) 推荐(0)

基于Python开发数据宽表实例

摘要：搭建宽表作用，就是为了让业务部门的数据分析人员，在日常工作可以直接提取所需指标，快速做出对应专题的数据分析。在实际工作中，数据量及数据源繁多，如果每个数据分析人员都从计算加工到出报告，除了工作效率巨慢也会导致服务器资源紧张。因此建设数据集市层，包含了该宽表层并在非工作时间做自动生成。本文引用CDN 阅读全文

posted @ 2021-01-14 11:29 Rango_lhl 阅读(511) 评论(0) 推荐(0)

Spark Streaming处理Flume数据练习

摘要：把Flume Source（netcat类型），从终端上不断给Flume Source发送消息，Flume把消息汇集到Sink（avro类型），由Sink把消息推送给Spark Streaming并处理后输出版本信息：spark2.4.0 Flume 1.7.0 （基于pyspark）一、Flu 阅读全文

posted @ 2021-01-12 16:28 Rango_lhl 阅读(293) 评论(0) 推荐(0)

for update语句锁机制问题

摘要：数据库小知识学习系列问题： MySQL InnoDB中，select where xxx=123 for update；该xxx没有索引，是使用表锁还是全部数据加行锁？答： InnoDB引擎（默认RR隔离级别）中的行级锁是依赖索引实现的，问题条件xxx为非索引字段，所以使用的是表锁。如若隔离级阅读全文

posted @ 2021-01-11 14:04 Rango_lhl 阅读(401) 评论(0) 推荐(0)

2020年9月

基于Docker搭建Hadoop+Hive

摘要：为配合生产hadoop使用，在本地搭建测试环境，使用docker环境实现（主要是省事~），拉取阿里云已有hadoop镜像基础上，安装hive组件，参考下面两个专栏文章：克里斯：基于 Docker 构建 Hadoop 平台 docker上从零开始搭建hadoop和hive环境由于hadoop与hi 阅读全文

posted @ 2020-09-16 15:06 Rango_lhl 阅读(4312) 评论(0) 推荐(1)

2020年8月

数据治理架构探索（二）

摘要：目前就职公司数据流转原先流程如上一篇提及：https://www.cnblogs.com/rango-lhl/p/12662473.html 到后期每天同步数据有15G左右，由于生产的机子性能差，导致同步巨慢，影响了平台日常使用，因此做了优化。 ps：公司初期业务为主，数据量也较少，因此机器投入相对阅读全文

posted @ 2020-08-21 17:58 Rango_lhl 阅读(222) 评论(0) 推荐(0)

Python+Docker+Flask+pyecharts实现数据可视化

摘要： 1、数据加工pyecharts图实现：数据源：本地CSV文件 ps：由于是跟生产环境做交互，生产环境指标由HSQL加工，使用存储过程挂后台定时运行，后使用python实现导出及定时分发，本地python接收获取附件解压 2、上传文件至服务器本地pycharm跑通后，把项目对应文件上传至服务器目录阅读全文

posted @ 2020-08-10 15:22 Rango_lhl 阅读(2236) 评论(0) 推荐(0)

2020年4月

数据治理架构探索

摘要：对现有数据体系整理优化的探索。目前现有体系为生产数据库为ORACLE，分析平台数据库为基于HADOOP平台开发，两个平台并行运行。基于业务要求，生产ORACLE按一定期限会删除数据，而分析平台则保存历史所有但是会做了脱敏处理，只满足分析使用，目前架构整理如下：阅读全文

posted @ 2020-04-08 20:17 Rango_lhl 阅读(408) 评论(0) 推荐(1)

2020年2月

虚拟机Linux安装Oracle容器并实现局域网其他主机访问查询

摘要：该文涉及Docker下Oracle容器的安装，主机端口的设置实现局域网内终端均能连接上Oracle数据库，图解如下：一、关于Docker安装oracle容器可以参考下面博文： https://blog.csdn.net/qq_38380025/article/details/80647620 文中阅读全文

posted @ 2020-02-15 00:24 Rango_lhl 阅读(855) 评论(0) 推荐(0)

公告