随笔分类 - CDH
Cloudera's Distribution, including Apache Hadoop,是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本Apache Hadoop的构建。本例将描述与CDH生态相关内容!
摘要:一、安装之前 Cloudera管理器的存储空间规划 ClouderaManager跟踪许多后台流程中的服务、作业和应用程序的指标。所有这些指标都需要存储。根据组织的大小,此存储可以是本地的或远程的,基于磁盘的,也可以是数据库中的,由您或其他团队在另一个位置管理。 大多数系统管理员都知道常见的位置,如
阅读全文
摘要:执行 impala-shell 即能进入界面操作sql。如果在hive更新了数据之后,而在impala中却无法看到更新后的数据的话,意味着impala里元数据信息还没有刷新,此时在impala操作界面里 执行 invalidate metadata; 命令刷新元数据。 use rimengshe;
阅读全文
摘要:一、.hbase与hive的兼容版本: hive0.90与hbase0.92是兼容的,早期的hive版本与hbase0.89/0.90兼容,不需要自己编译。 hive1.x与hbase0.98.x或则更低版本是兼容的,不需要自己编译。 hive2.x与hbase1.x及比hbase1.x更高版本兼容
阅读全文
摘要:错误1: ERROR client.RemoteDriver: Failed to start SparkContext: java.lang.IllegalArgumentException: Executor memory 456340275 must be at least 471859200
阅读全文
摘要:一、spark的命令行模式 1.第一种进入方式:执行 pyspark进入,执行exit()退出 注意报错信息:java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the (最大阈值)m
阅读全文
摘要:1、HDFS的高可用配置 dfs.namenode.edits.dir (NameNode 编辑目录) : 写入 NameNode 编辑的本地文件系统上的目录。未指定将存放在namenode数据目录中。 dfs.journalnode.edits.dir (JournalNode 编辑目录):用于存
阅读全文
摘要:每个节点执行ntpstat 和 timedatectl 都显示同步并且时间相同,那么CDH才能正常使用。每次ntp服务同步到外部授时中心都要一段时间(5~10分钟),只有当NTP server(node1)节点和其他的NTP client(node2、node3)节点都显示同步成功之后,CM页面中的每台机器才不会报错。可通过timedatectl查看到当前节点是否同步成功:如果显示...
阅读全文
摘要:通过改善IFile阅读器的性能 IFile Reader,进而可改善随机处理程序并减少储备空间,达到MapReduce的配置最佳实践要求。而MapReduce shuffle的处理程序和IFile阅读器的使用通常调用本机Linux的Hadoop本机库。 首先改善IFile阅读器的性能要求启用IFile预读可提高合并操作的性能。要为MRv1或YARN启用此功能,请设置map...
阅读全文
摘要:集群规划 hostname ip mac 硬盘 内存 cMaster 192.168.1.100 00:50:56:3D:97:A5 25GB 3G cSlave01 192.168.1.101 00:50:56:28:C5:C9 20GB 2G cSlave02 192.168.1.102 00:
阅读全文