摘要: 报错截图: 从报错信息看是 distcp 起的map 任务在写 hdfs 的 pipline 失败了,并且重试了5次没有成功,所以这个 task 直接抛出错误失败被 kill 了. 先说解决办法: 清空了 hdfs 所以节点的 iptables 防火墙规则 加了参数 -Dmapreduce.map. 阅读全文
posted @ 2022-05-17 22:31 hdpdriver 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 当报一些很奇怪的错,比如报错多了一个空格,但 vim 看打开没有,比如: 或者肉眼看上去路径正常,但却报路径不存在: 这种时候要使用 dos2unix 工具,把这个列表文件转换一下: 阅读全文
posted @ 2022-04-18 22:53 hdpdriver 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 共涉及三个参数: dfs.namenode.replication.max-streams 30 ⇒ 70 dfs.namenode.replication.max-streams-hard-limit 40 ⇒ 90 dfs.namenode.replication.work.multiplier 阅读全文
posted @ 2022-04-11 13:01 hdpdriver 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 当 datanode 上新写完一个块,默认会立即汇报给 namenode。在一个大规模 Hadoop 集群上,每时每刻都在写数据,datanode 上随时都会有写完数据块然后汇报给 namenode 的情况。因此 namenode 会频繁处理 datanode 这种快汇报请求,会频繁地持有锁,其实非 阅读全文
posted @ 2022-04-11 12:54 hdpdriver 阅读(487) 评论(0) 推荐(0) 编辑
摘要: [应用场景] 对分片副本表的列进行 alter 操作 [问题复现] [解决办法] 检查该分片所有副本表的表结构和 zk 上存储的 column 信息保持一致,检查本地的表结构 sql 文件 /data/clickhouse/clickhouse-server/metadata/default/xxx 阅读全文
posted @ 2022-04-01 21:40 hdpdriver 阅读(424) 评论(0) 推荐(0) 编辑
摘要: [应用场景] 由于一些未可知的原因,导致原表不可用,也不能恢复.通过手动迁移的方法来恢复业务 [解决办法] 新建一张 copy 表,把原表的 data 目录复制到新表的data 目录,并 attach 上去,然后删除旧表,把新表重命名为旧表.来恢复业务 比如说原表为 default.a ,具体步骤如 阅读全文
posted @ 2022-04-01 19:59 hdpdriver 阅读(710) 评论(0) 推荐(0) 编辑
摘要: [应用场景] 对副本表进行 alter delete 数据后,同样的数据再进行 insert into 操作. [问题复现] [问题解释] 对副本表 insert 语句的数据会划分为数据块. 每个数据块会生成 block_id ,存在 zookeeper 相应表目录的 block 子目录下.根据这个 阅读全文
posted @ 2022-04-01 12:57 hdpdriver 阅读(2143) 评论(0) 推荐(0) 编辑
摘要: altinity 网络研讨会学习 阅读全文
posted @ 2020-11-23 15:07 hdpdriver 阅读(775) 评论(0) 推荐(0) 编辑
摘要: 数据处理框架 数据处理是一个非常宽泛的概念,数据处理框架在数据架构中,主要是用于数据移动和分析这两大功能当中.对于数据移动,有离线数据移动和实时数据移动,也可以叫做是批量数据移动和流式数据移动.而对于分析这一块,有离线数据分析和实时数据分析,也可以称作是批量数据分析和流式数据分析.离线和实时,批量和 阅读全文
posted @ 2020-03-03 09:33 hdpdriver 阅读(735) 评论(0) 推荐(1) 编辑
摘要: 调试Spark应用性能的时候,首先应该理解spark是如何工作以及你的spark应用需要何种类型的资源。比如说,机器学习相关的spark应用更依赖cpu计算能力,ETL应用更依赖I/O能力,以此进行有针对的优化和配置。 硬件配置 正确的硬件配置要根据实际的情况来看。可以从以下几个方面来考虑: 存储系 阅读全文
posted @ 2020-02-26 11:00 hdpdriver 阅读(239) 评论(0) 推荐(0) 编辑