随笔分类 -  HDFS

摘要:https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时 阅读全文
posted @ 2022-05-31 16:05 匠人先生 阅读(273) 评论(0) 推荐(0) 编辑
摘要:现象 hbase的region server进程大面积重启 排查 第一个重启的region server节点有如下报错: 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser 阅读全文
posted @ 2022-05-19 14:15 匠人先生 阅读(1169) 评论(0) 推荐(0) 编辑
摘要:配置 配置1 fs.trash.interval=1440 被删除的文件会进入回收站,默认保留1440分钟后完全删除 配置2 fs.trash.checkpoint.interval=60 回收站checkpoint机制:进入回收站的文件首先进入Current目录,然后定期移动到一个时间戳目录,定期 阅读全文
posted @ 2022-04-06 19:38 匠人先生 阅读(488) 评论(0) 推荐(0) 编辑
摘要:hdfs单个节点内多个磁盘不均衡时(比如新加磁盘),需要手工进行diskbalancer操作,命令如下 # hdfs diskbalancer -help plan usage: hdfs diskbalancer -plan <hostname> [options] Creates a plan 阅读全文
posted @ 2021-09-04 11:31 匠人先生 阅读(594) 评论(0) 推荐(0) 编辑
摘要:docker容器访问hdfs报错UnknownHostException,报错信息如下: java.lang.RuntimeException: java.net.UnknownHostException: Invalid host name: local host is: (unknown); d 阅读全文
posted @ 2021-07-28 20:51 匠人先生 阅读(1775) 评论(0) 推荐(0) 编辑
摘要:impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 阅读全文
posted @ 2020-08-10 18:26 匠人先生 阅读(3664) 评论(0) 推荐(0) 编辑
摘要:gobblin 0.10 想要持久化kafka到hdfs有很多种方式,比如flume、logstash、gobblin,其中flume和logstash是流式的,gobblin是批处理式的,gobblin通过定时任务触发来完成数据持久化,在任务和任务之间是没有任何读写的,这点是和flume、logs 阅读全文
posted @ 2019-06-01 14:29 匠人先生 阅读(1651) 评论(0) 推荐(0) 编辑
摘要:hue中使用hue用户(hue admin)访问hdfs报错: Cannot access: /. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". 阅读全文
posted @ 2019-04-02 10:54 匠人先生 阅读(946) 评论(0) 推荐(0) 编辑
摘要:当hdfs空间不足时,除了删除临时数据或垃圾数据之外,还可以适当调整部分大目录的副本数量,多管齐下; 1 查看 $ hdfs dfs -ls /user/hive/warehouse/temp.db/test_ext_o-rwxr-xr-x 3 hadoop supergroup 44324200 阅读全文
posted @ 2019-03-25 11:20 匠人先生 阅读(1079) 评论(0) 推荐(0) 编辑
摘要:hadoop.security.authentication: Kerberos -> Simple hadoop.security.authorization: true -> false dfs.datanode.address: -> from 1004 (for Kerberos) to 5 阅读全文
posted @ 2019-03-15 22:39 匠人先生 阅读(702) 评论(0) 推荐(0) 编辑
摘要:hdfs开启kerberos之后,namenode报错,连不上journalnode 2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as 阅读全文
posted @ 2019-03-15 22:38 匠人先生 阅读(2999) 评论(0) 推荐(0) 编辑
摘要:环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill/p/10271679.html 2 安装ansible 参考:https://www.cnblogs 阅读全文
posted @ 2019-02-25 11:14 匠人先生 阅读(319) 评论(0) 推荐(1) 编辑
摘要:一 官方 airflow官方分布式部署结构图 airflow进程 webserver scheduler flower(非必须) worker airflow缺点 scheduler单点 通过在scheduler的dags目录变动dag文件来提交流程 官方分布式部署方案 多个webserver 多个 阅读全文
posted @ 2019-02-20 01:57 匠人先生 阅读(3267) 评论(0) 推荐(0) 编辑
摘要:CM金丝雀Canary报错 1 HDFS 金丝雀Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。 2 Hive Metastore CanaryHive Metastore canary 创建 hue hdfs 主目录 阅读全文
posted @ 2019-02-19 14:17 匠人先生 阅读(5248) 评论(0) 推荐(0) 编辑
摘要:集群中有一台datanode一直启动报错如下: java.net.BindException: Problem binding to [$server1:50020] java.net.BindException: Address already in use; For more details s 阅读全文
posted @ 2019-02-15 17:12 匠人先生 阅读(1048) 评论(0) 推荐(1) 编辑
摘要:有些工作只能在一台server上进行,比如master,这时HA(High Availability)首先要求部署多个server,其次要求多个server自动选举出一个active状态server,其他server处于standby状态,只有active状态的server允许进行特定的操作;当ac 阅读全文
posted @ 2019-01-11 15:25 匠人先生 阅读(1724) 评论(0) 推荐(1) 编辑
摘要:spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始 阅读全文
posted @ 2018-12-28 20:55 匠人先生 阅读(8093) 评论(0) 推荐(5) 编辑
摘要:最近在hdfs写文件的时候发现一个问题,create写入正常,append写入报错,每次都能重现,代码示例如下: FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文
posted @ 2018-12-21 11:08 匠人先生 阅读(1429) 评论(0) 推荐(0) 编辑
摘要:HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block; 通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息,例如: hd 阅读全文
posted @ 2018-12-13 15:59 匠人先生 阅读(2047) 评论(0) 推荐(0) 编辑
摘要:HDFS会周期性的检查是否有文件缺少副本,并触发副本复制逻辑使之达到配置的副本数, <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文
posted @ 2018-12-13 15:39 匠人先生 阅读(2687) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示