HDFS - 随笔分类 - 匠人先生

大数据基础之HDFS

摘要：https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点：大文件、一次写入多次读取，修改只支持Append 多副本流式、非低延时阅读全文

posted @ 2022-05-31 16:05 匠人先生阅读(312) 评论(0) 推荐(0)

大叔问题定位分享（43）hbase大面积重启

摘要：现象 hbase的region server进程大面积重启排查第一个重启的region server节点有如下报错： 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser 阅读全文

posted @ 2022-05-19 14:15 匠人先生阅读(1252) 评论(0) 推荐(0)

大数据基础之Hadoop（4）hdfs回收站

摘要：配置配置1 fs.trash.interval=1440 被删除的文件会进入回收站，默认保留1440分钟后完全删除配置2 fs.trash.checkpoint.interval=60 回收站checkpoint机制：进入回收站的文件首先进入Current目录，然后定期移动到一个时间戳目录，定期阅读全文

posted @ 2022-04-06 19:38 匠人先生阅读(554) 评论(0) 推荐(0)

大数据基础之Hadoop（3）hdfs diskbalancer

摘要：hdfs单个节点内多个磁盘不均衡时（比如新加磁盘），需要手工进行diskbalancer操作，命令如下 # hdfs diskbalancer -help plan usage: hdfs diskbalancer -plan <hostname> [options] Creates a plan 阅读全文

posted @ 2021-09-04 11:31 匠人先生阅读(644) 评论(0) 推荐(0)

大叔经验分享（130）docker容器访问hdfs报错UnknownHostException

摘要：docker容器访问hdfs报错UnknownHostException，报错信息如下： java.lang.RuntimeException: java.net.UnknownHostException: Invalid host name: local host is: (unknown); d 阅读全文

posted @ 2021-07-28 20:51 匠人先生阅读(1869) 评论(0) 推荐(0)

大叔问题定位分享（38）impala报错内存不足

摘要：impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 阅读全文

posted @ 2020-08-10 18:26 匠人先生阅读(3749) 评论(0) 推荐(0)

大数据基础之Gobblin（2）持久化kafka到hdfs

摘要：gobblin 0.10 想要持久化kafka到hdfs有很多种方式，比如flume、logstash、gobblin，其中flume和logstash是流式的，gobblin是批处理式的，gobblin通过定时任务触发来完成数据持久化，在任务和任务之间是没有任何读写的，这点是和flume、logs 阅读全文

posted @ 2019-06-01 14:29 匠人先生阅读(1686) 评论(0) 推荐(0)

大叔经验分享（49）hue访问hdfs报错/hue访问oozie editor页面卡住

摘要：hue中使用hue用户（hue admin）访问hdfs报错： Cannot access: /. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "supergroup". 阅读全文

posted @ 2019-04-02 10:54 匠人先生阅读(977) 评论(0) 推荐(0)

大叔经验分享（44）hdfs副本数量

摘要：当hdfs空间不足时，除了删除临时数据或垃圾数据之外，还可以适当调整部分大目录的副本数量，多管齐下； 1 查看 $ hdfs dfs -ls /user/hive/warehouse/temp.db/test_ext_o-rwxr-xr-x 3 hadoop supergroup 44324200 阅读全文

posted @ 2019-03-25 11:20 匠人先生阅读(1119) 评论(0) 推荐(0)

大叔经验分享（40）hdfs关闭kerberos

摘要：hadoop.security.authentication: Kerberos -> Simple hadoop.security.authorization: true -> false dfs.datanode.address: -> from 1004 (for Kerberos) to 5 阅读全文

posted @ 2019-03-15 22:39 匠人先生阅读(719) 评论(0) 推荐(0)

大叔经验分享（41）hdfs开启kerberos之后报错Encryption type AES256 CTS mode with HMAC SHA1-96 is not supported/enabled

摘要：hdfs开启kerberos之后，namenode报错，连不上journalnode 2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as 阅读全文

posted @ 2019-03-15 22:38 匠人先生阅读(3084) 评论(0) 推荐(0)

大数据基础之Hadoop（2）hdfs和yarn最简绿色部署

摘要：环境：3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录参考：https://www.cnblogs.com/barneywill/p/10271679.html 2 安装ansible 参考：https://www.cnblogs 阅读全文

posted @ 2019-02-25 11:14 匠人先生阅读(336) 评论(0) 推荐(1)

大数据基础之Airflow（2）生产环境部署airflow研究

摘要：一官方 airflow官方分布式部署结构图 airflow进程 webserver scheduler flower（非必须） worker airflow缺点 scheduler单点通过在scheduler的dags目录变动dag文件来提交流程官方分布式部署方案多个webserver 多个阅读全文

posted @ 2019-02-20 01:57 匠人先生阅读(3353) 评论(0) 推荐(0)

大叔经验分享（31）CM金丝雀Canary报错

摘要：CM金丝雀Canary报错 1 HDFS 金丝雀Canary 测试无法为 /tmp/.cloudera_health_monitoring_canary_files 创建父目录。 2 Hive Metastore CanaryHive Metastore canary 创建 hue hdfs 主目录阅读全文

posted @ 2019-02-19 14:17 匠人先生阅读(5339) 评论(0) 推荐(0)

大叔问题定位分享（29）datanode启动报错：50020端口被占用

摘要：集群中有一台datanode一直启动报错如下： java.net.BindException: Problem binding to [$server1:50020] java.net.BindException: Address already in use; For more details s 阅读全文

posted @ 2019-02-15 17:12 匠人先生阅读(1089) 评论(0) 推荐(1)

大数据基础之Hadoop（1）HA实现原理

摘要：有些工作只能在一台server上进行，比如master，这时HA（High Availability）首先要求部署多个server，其次要求多个server自动选举出一个active状态server，其他server处于standby状态，只有active状态的server允许进行特定的操作；当ac 阅读全文

posted @ 2019-01-11 15:25 匠人先生阅读(1758) 评论(0) 推荐(1)

大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

摘要：spark 2.1.1 spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大（比如文件特别多或者特别大时），也可能比这个要小（比如文件只有一个而且很小时），如果没有指定最小partition数量，初始阅读全文

posted @ 2018-12-28 20:55 匠人先生阅读(8210) 评论(0) 推荐(5)

大叔问题定位分享（20）hdfs文件create写入正常，append写入报错

摘要：最近在hdfs写文件的时候发现一个问题，create写入正常，append写入报错，每次都能重现，代码示例如下： FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文

posted @ 2018-12-21 11:08 匠人先生阅读(1485) 评论(0) 推荐(0)

大数据基础之HDFS（1）HDFS新创建文件如何分配Datanode

摘要：HDFS中的File由Block组成，一个File包含一个或多个Block，当创建File时会创建一个Block，然后根据配置的副本数量（默认是3）申请3个Datanode来存放这个Block；通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息，例如： hd 阅读全文

posted @ 2018-12-13 15:59 匠人先生阅读(2090) 评论(0) 推荐(0)

大数据基础之HDFS（2）HDFS副本数量检查及复制逻辑

摘要：HDFS会周期性的检查是否有文件缺少副本，并触发副本复制逻辑使之达到配置的副本数， <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文

posted @ 2018-12-13 15:39 匠人先生阅读(2748) 评论(0) 推荐(1)

Thinking in BigData

匠人先生

随笔分类 - HDFS

公告