06 2022 档案

宽表加工
摘要:切换数据库 use ods_zhaozhihao; 查看表 show tables; u_memcard_reg.json √ { "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "perce 阅读全文

posted @ 2022-06-15 14:43 唯一的Dove 阅读(102) 评论(0) 推荐(0) 编辑

宽表 and 数据建模
摘要:什么是宽表? 它的作用是什么? 从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。 能解决多维分析时多表的关联问题又能提高数据查询的速度和分析操作的便捷性。 什么是数据建模, 一般用哪些工具 数据建模指的是把各类数据的数据类型,数据特点,根据业务 阅读全文

posted @ 2022-06-13 15:28 唯一的Dove 阅读(76) 评论(0) 推荐(0) 编辑

全量和增量抽取、事实表, 维度表的关系
摘要:全量和增量抽取是什么意思? 事实表, 维度表一般会用哪个方式抽取. T+1的T是什么意思, 1是什么意思 全量抽取 将数据源中的表或视图原封不动的从数据库中抽取到⽬标系统。 增量抽取 捕获变化数据,仅对⾃上次导出之后变化数据(增、删、改)进⾏抽取。 对捕获⽅法有两点要求 1:准确 2:不要对业务系统 阅读全文

posted @ 2022-06-12 22:30 唯一的Dove 阅读(307) 评论(0) 推荐(0) 编辑

医疗项目ETL流程概括
摘要:软件版本 你们的工作平台是hadoop是什么版本, 数据源是oracle mysql什么版本, 端口 hadoop(3.1.3) 公司定制版本:cdh(6) oracle——— 11g 端口:1521 MySQL——5.6 端口:3306 什么是关系型数据库, 什么是NOSQL数据库 NoSQL = 阅读全文

posted @ 2022-06-09 13:31 唯一的Dove 阅读(236) 评论(0) 推荐(0) 编辑

医疗项目问题概括
摘要:你们的项目有哪些平台, 这些平台是用来做什么的? 通过交易平台 (主要销售的数据从门店pos机、电商、o2o,CRM-客户关系管理系统(洞察客户的需求) 社交应用 -app小程序、小程序 商品平台 大数据平台,来达成达成客户与员工、人与商品在全渠道接触点的无缝联接和智能互劢 用文字去描述平台有哪些业 阅读全文

posted @ 2022-06-08 19:49 唯一的Dove 阅读(51) 评论(0) 推荐(0) 编辑

hive存储格式
摘要:格式类型 Hive支持的存储数据的格式主要有:TEXTFILE 文本格式文件(行式存储)、 SEQUENCEFILE 二进制序列化文件(行式存储)、ORC(列式存储)、PARQUET(列式存储)等。 hive的存储格式通常是:textfile 、 sequencefile 、 rcfile 、 or 阅读全文

posted @ 2022-06-07 19:45 唯一的Dove 阅读(2169) 评论(0) 推荐(0) 编辑

动态分区
摘要:Hive动态分区 应用场景: 不确定分区数量,数据量也不是很大,使用动态分区 动态分区,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值 insert overwrite table dynamic_ partition par 阅读全文

posted @ 2022-06-07 19:08 唯一的Dove 阅读(288) 评论(0) 推荐(0) 编辑

小文件合并
摘要:Hive 自动合并小文件可以减轻 NameNode 的压力。数据量大可以有更好的压缩效率。并且后续处理这些数据时,任务的启动速度会加快。 但是配置稍微复杂,没有一个能用所有引擎的参数。 小文件的判断 如果一个 job 结束后,生成的文件的平均大小 小于 参数 hive.merge.smallfile 阅读全文

posted @ 2022-06-07 17:00 唯一的Dove 阅读(299) 评论(0) 推荐(0) 编辑

数据倾斜
摘要:数据倾斜的定义 数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点上,使得该部分的处理速度远低于平均计算速度,成为整个数据集处理的瓶颈,从而影响整体计算性能。 几种数据倾斜的解决方案 1、空值引发的数据倾斜 阅读全文

posted @ 2022-06-07 16:46 唯一的Dove 阅读(266) 评论(0) 推荐(0) 编辑

Hive优化
摘要:#Hive性能优化 影响Hive效率的因素:数据倾斜,数据冗余,Job或I/O过多,MapReduce分配不合理 ###优化方法 数据倾斜 数据倾斜的定义 数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点 阅读全文

posted @ 2022-06-07 16:33 唯一的Dove 阅读(102) 评论(0) 推荐(0) 编辑

分桶表意义与作用
摘要:分桶表 ###书写格式 [CLUSTERED BY (col_name, col_name, …) 分桶的字段,是从表的普通字段中来取 [SORTED BY (col_name [ASC|DESC], …)] INTO num_buckets BUCKETS] ###使用场景 通常,在管理大规模数据 阅读全文

posted @ 2022-06-07 15:47 唯一的Dove 阅读(952) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示