随笔分类 -  15 hadoop

摘要:一.系统版本说明: 星环TDH5.2.4 dolphinscheduler 版本2.0.3 二,部署 参考https://www.cnblogs.com/djlsunshine/p/13214539.html 修改对应的配置即可 版本2.0.3不同的是执行用即可完成调试 三、连接inceptor 2 阅读全文
posted @ 2022-01-27 16:36 Tim&Blog 阅读(471) 评论(0) 推荐(0) 编辑
摘要:1. 下载dolphinscheduler 下载地址https://dolphinscheduler.apache.org/en-us/download/download.html 下载版本为:src源码,需要重新编译 查看pom.xml对应的组件版本,这里不介绍编译方式,下次用到介绍 1 <cur 阅读全文
posted @ 2022-01-26 09:00 Tim&Blog 阅读(2150) 评论(0) 推荐(0) 编辑
摘要:报错信息: ipc.client , server:htzq-tdh01:10020.Already tried 9 times 原因分析:由于集群删除该节点htzq-tdh01导致下游系统使用sqoop做数据采集、推送报错,sqoop用到hdfs节点,并且会通过mr进行数据计算 ,tdh5版本的m 阅读全文
posted @ 2021-11-15 11:00 Tim&Blog 阅读(74) 评论(0) 推荐(0) 编辑
摘要:迁移hdfs节点过程中,退役datanode节点,出现这个问题:使用命令检查block报告hdfs fsck /返回结果截图如下:参数说明:Total size : hdfs集群存储大小,不包括复本大小。如:75423236058649 B (字节)。(字节->KB->m->G->TB,75423236058649/1024/1024/1024/1024=68.59703358591014TB) 阅读全文
posted @ 2021-10-15 16:51 Tim&Blog 阅读(806) 评论(0) 推荐(0) 编辑
摘要:星环catalog元数据管理系统,底层是在altas的基础上做了自己的开发,具有血缘关系、数据地图展示,搜索(做的不好)表等,可以给表加标签,还具有sql执行页面。总体来说这套工具想法挺好,但是产品用起来不是特别友好,搜索想全文查找不是特别好用,搜出来的字段无法连接到具体表上,只是展示。 搜索表或者 阅读全文
posted @ 2021-08-30 10:36 Tim&Blog 阅读(249) 评论(0) 推荐(0) 编辑
摘要:问题: 使用sql语句,insert into xxx select * from xxx group by;等复杂的逻辑语句 出现reducer数量超过1000000 原因分析: Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率 ,这使得Hive怎样决定reduce 阅读全文
posted @ 2020-10-29 08:36 Tim&Blog 阅读(379) 评论(0) 推荐(0) 编辑
摘要:Hadoop支持的一系列通配符与Unix bash相同: 通配符 名称 匹配 * 星号 匹配0或多个字符 ? 问号 匹配单一字符 [ab] 字符类别 匹配{a,b}中的一个字符 [^ab] 非字符类别 匹配不是{a,b}中的一个字符 [a-b] 字符范围 匹配一个在{a,b}范围内的 字符(包括ab 阅读全文
posted @ 2020-09-09 14:08 Tim&Blog 阅读(985) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 16:24 Tim&Blog 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 15:57 Tim&Blog 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 15:56 Tim&Blog 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 15:55 Tim&Blog 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 15:54 Tim&Blog 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-30 15:53 Tim&Blog 阅读(860) 评论(0) 推荐(0) 编辑
摘要:ORC表与其他表的区别1. 只有TEXT、CSV、基于定宽文本文件外表这三种表支持对 字段类型 的修改以及增、删字段。2. 禁止修改ORC表的字段类型3. 禁止对ORC表增、删字段 ORC表建立的原则ORC非事务表的建表只需在建表语句中用 STORED AS ORC 指定存储格式为ORC即可。ORC 阅读全文
posted @ 2020-04-30 15:52 Tim&Blog 阅读(932) 评论(0) 推荐(0) 编辑
摘要:beeline使用方式1. 无认证./beeline -u jdbc:hive2://{inceptor_server}:100002. 使用Kerberos认证kinit -kt /etc/sql2/hive.keytab hive/baogang2@TDHklistTicket cache: F 阅读全文
posted @ 2020-04-30 15:50 Tim&Blog 阅读(798) 评论(0) 推荐(0) 编辑
摘要:Inceptor命令01-表介绍 • 表的划分-不同维度 1. 按 Inceptor的所有权 分类可分为:外部表(或简称为外表)和托管表(内表)。 2. 按 表的存储格式 分类可分为:TEXT表、ORC表、CSV表和Holodesk表。 3. 按表 是否分区 可分为:分区表和非分区表。 4. 按表 阅读全文
posted @ 2020-04-30 15:48 Tim&Blog 阅读(1508) 评论(0) 推荐(0) 编辑
摘要:Presto是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 它可以做什么? Presto支持在线数据查询,包括Hive, Cassa 阅读全文
posted @ 2020-04-10 09:59 Tim&Blog 阅读(834) 评论(1) 推荐(0) 编辑
摘要:holodesk为了权衡列式存储的解压带来的性能影响,采用的是行列式混合存储架构,这种架构再压缩列重复数据时会比单纯的列式存储架构的压缩比要小; orc表采用的列式压缩方式,对列重复数据具有很好的压缩性能,所以两种表类型对应的压缩格式不同,导致两种表在重复数据较多时占用的存储空间相差较大; 当然,这 阅读全文
posted @ 2020-03-12 10:16 Tim&Blog 阅读(977) 评论(0) 推荐(0) 编辑
摘要:从文件到kafka # flume-directory-kafka.conf: A single-node Flume configuration # Name the components on this agent a3.sources = r3 a3.sinks = k3 a3.channel 阅读全文
posted @ 2020-02-19 11:01 Tim&Blog 阅读(284) 评论(0) 推荐(0) 编辑
摘要:目录 一、背景 二、Flume的简介 三、Flume NG的介绍 3.1 Flume特点 3.2 Flume的一些核心概念 3.3 Flume NG的体系结构 3.4 Source 3.5 Channel 3.6 Sink 四、Flume的部署类型 4.1 单一流程 4.2 多代理流程(多个agen 阅读全文
posted @ 2020-01-22 10:20 Tim&Blog 阅读(456) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示