摘要: 数据治理 数据地图 元数据采集 采集计划 数据源连接 库类型 HIVE RDMS 名字/描述 url/用户名/密码/端口/库名 采集内容 黑名单 白名单 自定义 精确匹配 模糊匹配 运行计划 频率 时间 日期 增量/全量 是否启用 元数据维护 库元数据 库信息 集群信息 所属机构/部门 是否下线 描 阅读全文
posted @ 2022-03-29 14:59 shenjie2017 阅读(76) 评论(0) 推荐(0) 编辑
摘要: JVM虚拟机 内存模型 程序计数器 存储执行字节码的地址 栈 JVM栈 本地方法栈 -Xss2m 栈内存 堆 回收机制 新生代 Eden 无多余空间时出发Minor GC Survivor -Xmn10M 新生代内存10M -XX:SurvivorRatio=8 Eden和Survivor的空间比例 阅读全文
posted @ 2022-03-29 10:58 shenjie2017 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-03-14 13:21 shenjie2017 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 需求 数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实,不仅浪费了存储空间,有时可能业务统计也有点麻烦 可选方案 那么对于这种表我该如何设计呢?下面有几种方案可选: 方案一:每天只留最新的一份,比如我们每天用Sqoop抽取最 阅读全文
posted @ 2019-06-26 18:39 shenjie2017 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 常用垃圾回收算法 标记 清理算法 常用于新生代回收算法,即标记垃圾区域,然后清除垃圾区域,缺点是会产生很多内存碎片 复制算法 常用于新生代回收算法,将正在使用的回收算法复制到一块新的区域,然后将原区域标记为已清理的内存区域,这样可以去掉很多内存碎片 标记 整理算法 将标记的区域依次复制到一起,实现碎 阅读全文
posted @ 2019-03-11 17:29 shenjie2017 阅读(64) 评论(0) 推荐(0) 编辑
摘要: JVM的内存模型 JVM(Java Virtual Machine)内存分为几大区域,包括程序计数器、堆、栈、方法区,其实内存模型和C++很类似。其中: 程序计数器: 记录当前执行指令的地址,对于if、for、递归、函数调用等,修改该计算器的值即可,该计数器有程序修改 堆 堆内存是通过new创建的对 阅读全文
posted @ 2019-03-07 17:08 shenjie2017 阅读(135) 评论(0) 推荐(0) 编辑
摘要: spark合并小文件有两种办法,分别针对spark core和spark sql #######一、设置spark配置文件的属性(spark sql) spark.sql.shuffle.partitions example: SparkSession.builder().enableHiveSup 阅读全文
posted @ 2019-01-08 13:00 shenjie2017 阅读(3043) 评论(0) 推荐(0) 编辑
摘要: --在Map-only的任务结束时合并小文件 SET hive.merge.mapfiles=TRUE; --在Map-Reduce的任务结束时合并小文件 SET hive.merge.mapredfiles=TRUE; set hive.map.aggr = true; set hive.grou 阅读全文
posted @ 2019-01-08 10:53 shenjie2017 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 注意 这里调度配置文件需要全部上传到hdfs,这个路径通过oozieAppsRoot指定 sql文件需要全部上传的hdfs,这个路径通过oozieScriptsRoot指定 配置文件 job.properties nameNode=hdfs://node1:8020 jobTracker=node1 阅读全文
posted @ 2018-12-13 13:53 shenjie2017 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 注意 如果不加PYTHON_EGG_CACHE环境变量会导致执行失败,impala-shell本身可以正常执行,估计是oozie调用shell时会使用到python的一个缓存文件,这里加上export PYTHON_EGG_CACHE=/tmp/python-eggs即可成功调用服务 代码 flus 阅读全文
posted @ 2018-12-12 16:28 shenjie2017 阅读(371) 评论(0) 推荐(0) 编辑