15 hadoop - 随笔分类 - Tim&Blog

dolphinscheduler本地部署调试及对接星环TDH-inceptor组件用于sql查询（二）

摘要：一.系统版本说明：星环TDH5.2.4 dolphinscheduler 版本2.0.3 二，部署参考https://www.cnblogs.com/djlsunshine/p/13214539.html 修改对应的配置即可版本2.0.3不同的是执行用即可完成调试三、连接inceptor 2 阅读全文

posted @ 2022-01-27 16:36 Tim&Blog 阅读(562) 评论(0) 推荐(0)

dolphinscheduler最新版2.0.2+mysql8.0.16部署（一）

摘要：1. 下载dolphinscheduler 下载地址https://dolphinscheduler.apache.org/en-us/download/download.html 下载版本为：src源码，需要重新编译查看pom.xml对应的组件版本，这里不介绍编译方式，下次用到介绍 1 <cur 阅读全文

posted @ 2022-01-26 09:00 Tim&Blog 阅读(2295) 评论(0) 推荐(0)

TDH一次因为节点删除报出来的sqoop导出数据报错

摘要：报错信息： ipc.client , server：htzq-tdh01:10020.Already tried 9 times 原因分析：由于集群删除该节点htzq-tdh01导致下游系统使用sqoop做数据采集、推送报错，sqoop用到hdfs节点，并且会通过mr进行数据计算，tdh5版本的m 阅读全文

posted @ 2021-11-15 11:00 Tim&Blog 阅读(99) 评论(0) 推荐(0)

hdfs fsck / 检查hdfs中block问题

摘要：迁移hdfs节点过程中，退役datanode节点，出现这个问题：使用命令检查block报告hdfs fsck /返回结果截图如下：参数说明：Total size ： hdfs集群存储大小，不包括复本大小。如：75423236058649 B （字节）。（字节->KB->m->G->TB，75423236058649/1024/1024/1024/1024=68.59703358591014TB）阅读全文

posted @ 2021-10-15 16:51 Tim&Blog 阅读(918) 评论(0) 推荐(0)

元数据比对-altas vs amundsen vs TDH-catalog(二)

摘要：星环catalog元数据管理系统，底层是在altas的基础上做了自己的开发，具有血缘关系、数据地图展示，搜索（做的不好）表等，可以给表加标签，还具有sql执行页面。总体来说这套工具想法挺好，但是产品用起来不是特别友好，搜索想全文查找不是特别好用，搜出来的字段无法连接到具体表上，只是展示。搜索表或者阅读全文

posted @ 2021-08-30 10:36 Tim&Blog 阅读(277) 评论(0) 推荐(0)

星环TDH使用中出现reducer数量超过1000000解决办法

摘要：问题：使用sql语句，insert into xxx select * from xxx group by;等复杂的逻辑语句出现reducer数量超过1000000 原因分析： Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reduce 阅读全文

posted @ 2020-10-29 08:36 Tim&Blog 阅读(417) 评论(0) 推荐(0)

HDFS/S3等分布式文件系统过滤路径时正则表达式写法

摘要：Hadoop支持的一系列通配符与Unix bash相同：通配符名称匹配 * 星号匹配0或多个字符 ? 问号匹配单一字符 [ab] 字符类别匹配{a,b}中的一个字符 [^ab] 非字符类别匹配不是{a,b}中的一个字符 [a-b] 字符范围匹配一个在{a,b}范围内的字符(包括ab 阅读全文

posted @ 2020-09-09 14:08 Tim&Blog 阅读(1035) 评论(0) 推荐(0)

TDH学习04-数据仓库、集市

摘要：阅读全文

posted @ 2020-04-30 16:24 Tim&Blog 阅读(293) 评论(0) 推荐(0)

TDH学习03-Inceptor&Holodesk

摘要：阅读全文

posted @ 2020-04-30 15:57 Tim&Blog 阅读(369) 评论(0) 推荐(0)

TDH学习02-Kubernetes

摘要：阅读全文

posted @ 2020-04-30 15:56 Tim&Blog 阅读(202) 评论(0) 推荐(0)

map的分片

摘要：阅读全文

posted @ 2020-04-30 15:55 Tim&Blog 阅读(401) 评论(0) 推荐(0)

数据仓库分层结构学习01

摘要：阅读全文

posted @ 2020-04-30 15:54 Tim&Blog 阅读(249) 评论(0) 推荐(0)

Inceptor命令07-Holodesk表

摘要：阅读全文

posted @ 2020-04-30 15:53 Tim&Blog 阅读(922) 评论(0) 推荐(0)

Inceptor命令04-表

摘要：ORC表与其他表的区别1. 只有TEXT、CSV、基于定宽文本文件外表这三种表支持对字段类型的修改以及增、删字段。2. 禁止修改ORC表的字段类型3. 禁止对ORC表增、删字段 ORC表建立的原则ORC非事务表的建表只需在建表语句中用 STORED AS ORC 指定存储格式为ORC即可。ORC 阅读全文

posted @ 2020-04-30 15:52 Tim&Blog 阅读(1006) 评论(0) 推荐(0)

Inceptor命令02-命令使用

摘要：beeline使用方式1. 无认证./beeline -u jdbc:hive2://{inceptor_server}:100002. 使用Kerberos认证kinit -kt /etc/sql2/hive.keytab hive/baogang2@TDHklistTicket cache: F 阅读全文

posted @ 2020-04-30 15:50 Tim&Blog 阅读(845) 评论(0) 推荐(0)

Inceptor命令01-表介绍

摘要：Inceptor命令01-表介绍 • 表的划分-不同维度 1. 按 Inceptor的所有权分类可分为：外部表（或简称为外表）和托管表（内表）。 2. 按表的存储格式分类可分为：TEXT表、ORC表、CSV表和Holodesk表。 3. 按表是否分区可分为：分区表和非分区表。 4. 按表阅读全文

posted @ 2020-04-30 15:48 Tim&Blog 阅读(1711) 评论(0) 推荐(0)

presto对接TDH5.2.4版本

摘要：Presto是什么？ Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。它可以做什么？ Presto支持在线数据查询，包括Hive, Cassa 阅读全文

posted @ 2020-04-10 09:59 Tim&Blog 阅读(856) 评论(1) 推荐(0)

holodesk表存储-列重复值太多，导致存储占用空间翻很多倍

摘要：holodesk为了权衡列式存储的解压带来的性能影响，采用的是行列式混合存储架构，这种架构再压缩列重复数据时会比单纯的列式存储架构的压缩比要小； orc表采用的列式压缩方式，对列重复数据具有很好的压缩性能，所以两种表类型对应的压缩格式不同，导致两种表在重复数据较多时占用的存储空间相差较大；当然，这阅读全文

posted @ 2020-03-12 10:16 Tim&Blog 阅读(1093) 评论(0) 推荐(0)

flume 配置实例.md

摘要：从文件到kafka # flume-directory-kafka.conf: A single-node Flume configuration # Name the components on this agent a3.sources = r3 a3.sinks = k3 a3.channel 阅读全文

posted @ 2020-02-19 11:01 Tim&Blog 阅读(299) 评论(0) 推荐(0)

Flume学习之路（一）Flume的基础介绍

摘要：目录一、背景二、Flume的简介三、Flume NG的介绍 3.1　Flume特点 3.2　Flume的一些核心概念 3.3　Flume NG的体系结构 3.4　Source 3.5　Channel 3.6　Sink 四、Flume的部署类型 4.1　单一流程 4.2　多代理流程（多个agen 阅读全文

posted @ 2020-01-22 10:20 Tim&Blog 阅读(471) 评论(0) 推荐(0)

wang3680 机会是留给那些有准备的人

——呼和浩特市大学西路235号

随笔分类 - 15 hadoop

公告