摘要:
方法/步骤 1 首先本地得安装git,然后切换到需要上传的项目所在路径下,点击鼠标右键 步骤阅读 2 在弹出的框中选择Git Bash Here,这时候会弹出一个命令框,输入命令 git init 步骤阅读 3 这时候发现项目所在目录下创建了一个.git文件夹 步骤阅读 4 接下来继续输入命令git 阅读全文
摘要:
Sqoop (sqoop.apache.org)工具是hadoop环境下连接关系数据库,和hadoop存储系统的桥梁,支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以全表导入,对于 阅读全文
摘要:
1、概述 HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式 阅读全文
摘要:
在Kafka0.11版本后,在保证精确一次性基础上通过事务来保证生产和消费可以跨分区与会话, 实现的原理是添加一个TID来与produceID来绑定,这样produce向broker注册时会记录TID,这样 如果挂掉了重启后PID随机生成但是Tid没变,可以通过Tid来将新的PID覆盖掉获取状态信息 阅读全文
摘要:
Kafka通过zookeeper来指定一台Kafka broker为controller Kafka集群的所有topic的partition主从选举通过controller来完成。 阅读全文
摘要:
1、采用追加数据到log中,为防止log过大采用分片和索引来加快查找并减小文件大小。 2、采用页面缓存 3、零拷贝,上层不用复制转发,直接从下层页缓存读取数据。 阅读全文
摘要:
导出:从hdfs到MySQL 添加sqoop参数: --input-null-string '\\N' \ --input-null-non-string '\\N' \这样导出时识别\N为空导入:从MySQL到hdfs导入数据时采用--null-string '\\N'和--null-non-st 阅读全文
摘要:
1、 Redis简介redis是Nosql数据库中使用较为广泛的非关系型内存数据库,redis内部是一个key-value存储系统。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型,类似 阅读全文
摘要:
bypass运行机制 下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下: shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。 不是聚合类的shuffle算子(比如red 阅读全文
摘要:
组件端口及说明 CDH 7180: Cloudera Manager WebUI端口7182: Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS R 阅读全文