人不疯狂枉一生

2021年6月7日

摘要：公司经常迁集群，很是蛋疼，每次迁移后，需要对比一下判断有差异的表。因此写了一个java小工具进行对比，用法如下：第一个参数为老集群的hivesever的ip；第二个参数为新集群的hivesever的ip；第三个参数为样例数据库（比如两边集群都有一个dw_ods）；第四个参数为指定需要对比的数阅读全文

posted @ 2021-06-07 15:04 人不疯狂枉一生阅读(409) 评论(0) 推荐(0)

2021年4月26日

Flink中的水印如何使用

摘要： Flink是处理实时数据的利器，但是由于网络抖动导致数据乱序或者数据写入Kafka后写入了不同分区，消费者消费时导致数据先后乱序等，为了解决这样的问题，Flink引人水印加上窗口使乱序数据落入同一个窗口然后进行处理，从而解决乱序问题。一.水印时间选择 Flink里面的时间分为事件时间，摄入时间，处阅读全文

posted @ 2021-04-26 16:22 人不疯狂枉一生阅读(1243) 评论(0) 推荐(0)

2020年12月25日

Mongoexport同步数据到Hive

摘要：由于数仓使用的Hive进行搭建，有的业务的数据采用的Mongodb进行数据存储，因此需要把Mongodb里面的数据拉到Hive，本文主要讲解使用Mongoexport进行数据拉取。一.安装Mongoexport 1. 首先使用vi /etc/yum.repos.d/mongodb-org-3.2. 阅读全文

posted @ 2020-12-25 09:31 人不疯狂枉一生阅读(511) 评论(0) 推荐(0)

2020年10月29日

Ignite安装及使用

摘要： 1.介绍 ignite是分布式内存网格的一种实现，其基于java平台，具有可持久化，分布式事务，分布式计算等特点，此外还支持丰富的键值存储以及SQL语法(基于h2引擎)，可以看成是一个分布式内存数据库。 2.安装注意：要把mysql的驱动放在jdk的/jre/lib/ext目录下。 2.1 原始安阅读全文

posted @ 2020-10-29 10:21 人不疯狂枉一生阅读(2170) 评论(0) 推荐(0)

2020年9月22日

windows环境开发spark及flink环境配置

摘要： 1.本地开发环境安装 1..本地添加如下映射（windows地址:C:\Windows\System32\drivers\etc） 192.168.83.48 node-master1pZiu 192.168.83.158 node-str-coreHikL 192.168.83.174 node- 阅读全文

posted @ 2020-09-22 18:01 人不疯狂枉一生阅读(838) 评论(0) 推荐(0)

2020年7月7日

线下数据导入之Urule规则引擎

摘要：很多时候我们需要把excel数据需要导入数仓，每次有新数据就需要重新开发模板，或者需要对某个数据进行校验时就需要重新修改代码，鉴于这种现状，我个人觉得可以通过规则引擎很好的解决这个问题，此文只是线下导数系统的开头，主要是对Urule集成Springboot的一个例子。 Urule规则引擎在使用时分为阅读全文

posted @ 2020-07-07 16:37 人不疯狂枉一生阅读(1512) 评论(0) 推荐(0)

2019年11月27日

Springboot操作Elasticsearch

摘要：常见的日志系统是基于logstach+elasticsearch+kibna框架搭建的,但是有时候kibana的查询无法满足我们的要求，因此有时需要代码去操作es,本文后续都以es代替elasticsearch。一.es基本概念理解索引：含有相同属性的文档的集合.(可理解为数据库database 阅读全文

posted @ 2019-11-27 23:11 人不疯狂枉一生阅读(1198) 评论(0) 推荐(0)

2019年11月26日

基于Livy的Spark提交平台搭建与开发

摘要：为了方便使用Spark的同学提交任务以及加强任务管理等原因，经调研采用Livy比较靠谱，下图大致罗列一下几种提交平台的差别。本文会以基于mac的单机环境搭建一套Spark+Livy+Hadoop来展示如何提交任务运行,本文只针对框架能够运行起来，至于各个组件参数怎么配置性能更好，各位兄弟就自行找度阅读全文

posted @ 2019-11-26 10:06 人不疯狂枉一生阅读(2572) 评论(0) 推荐(0)

2019年11月22日

Hbase操作集锦

摘要：一.Hbase架构与理解 Hbase架构大致如下，图片取自https://www.cnblogs.com/linkworld/p/10963910.html。二.Hbase shell操作创建Hbase表时默认有一个region,这个region的rowkey是没有边界的，即没有开始的star 阅读全文

posted @ 2019-11-22 11:41 人不疯狂枉一生阅读(221) 评论(0) 推荐(0)

2019年8月15日

Anaconda3配置多版本python环境开发

摘要： Python3出来了，使用的人也越来越多，Python2逐渐被抛弃,为了方便包管理并且想运行多个python版本的代码，自然就想到使用Anaconda了。阅读全文

posted @ 2019-08-15 15:54 人不疯狂枉一生阅读(724) 评论(0) 推荐(0)

人不疯狂枉一生

公告