摘要: 一、 选出合理的分桶字段。 可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。  查询字段中重复值最多的记录数: COL_COUNT=select column1,count(1) cnt from table_name group by column1 or 阅读全文
posted @ 2019-02-21 18:04 xiaolaotou 阅读(4090) 评论(3) 推荐(0) 编辑
摘要: 在master中生成dsa: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 让matser与slave01做免密: ssh-copy-id -i slave01 测试在master中输入ssh slave01,成功就可以了 让matser与slave02做免密: 阅读全文
posted @ 2019-02-21 17:58 xiaolaotou 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 一、hdfs文件读取过程 hdfs有一个FileSystem实例,客户端通过调用这个实例的open()方法就可以打开系统中希望读取的文件,hdfs通过rpc协议调用Nadmenode获取block的位置信息,对于文件的每一块,Namenode会返回含有该block副本的Datanode的节点地址;客 阅读全文
posted @ 2019-02-21 17:55 xiaolaotou 阅读(2202) 评论(0) 推荐(0) 编辑
摘要: )当 sink 到 hdfs 时: ) 需修改 flume-env.sh 配置,增添 hdfs 依赖库: FLUME_CLASSPATH="/root/TDH-Client/hadoop/hadoop/*:/root/TDHClient/hadoop/hadoop-hdfs/*:/root/TDH- 阅读全文
posted @ 2019-02-21 17:18 xiaolaotou 阅读(1367) 评论(0) 推荐(0) 编辑
摘要: 根据flume官网:当kafka涉及kerberos认证: 涉及两点配置,如下: 配置一:见下实例中红色部分 配置conf实例: [root@gz237-107 conf]# cat flume_slipstream.conf a1.sources =r1 a1.sinks = k1 a1.chan 阅读全文
posted @ 2019-02-21 14:21 xiaolaotou 阅读(2959) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-21 14:17 xiaolaotou 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 一、下载ycsb 0.10包 https://github.com/brianfrankcooper/YCSB/releases/download/0.10.0/ycsb-0.10.0.tar.gz 二、上传到linux,解压 tar -zxvf ycsb-0.10.0.tar.gz 三、YSCB压 阅读全文
posted @ 2019-02-21 13:09 xiaolaotou 阅读(2168) 评论(0) 推荐(0) 编辑
摘要: 来源:https://blog.csdn.net/qq_38941937/article/details/81625691 1、使用decode判断字符串是否一样 decode(value,if1,then1,if2,then2,if3,then3,...,else) 含义为 IF 条件=值1 TH 阅读全文
posted @ 2019-02-21 13:01 xiaolaotou 阅读(62880) 评论(0) 推荐(0) 编辑
摘要: NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。 对数字型: NVL( comm,0); 对字符型 阅读全文
posted @ 2019-02-21 12:58 xiaolaotou 阅读(1982) 评论(0) 推荐(0) 编辑
摘要: 实例一:来源: https://www.cnblogs.com/kimbo/p/6208973.html 行转列 (对某列拆分,一列拆多行) 使用函数:lateral view explode(split(column, ',')) num eg: 如表:t_row_to_column_tmp 数据 阅读全文
posted @ 2019-02-21 12:51 xiaolaotou 阅读(2363) 评论(0) 推荐(0) 编辑
摘要: case具有两种格式,简单case函数和case搜索函数 case函数只返回第一个符合条件的值,剩下的case部分将会被自动忽略 1、简单函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END 2、搜索函数 CASE WHEN se 阅读全文
posted @ 2019-02-21 12:43 xiaolaotou 阅读(3403) 评论(0) 推荐(0) 编辑
摘要: 一、 分区函数Partition By与row_number()、rank()、dense_rank()的用法(获取分组(分区)中前几条记录) 一、数据准备 --1、创建学生成绩表 id int, --主键 Grade int, --班级 Score int --分数 id int, --主键 Gr 阅读全文
posted @ 2019-02-21 12:40 xiaolaotou 阅读(3421) 评论(0) 推荐(0) 编辑
摘要: 下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法. 阅读全文
posted @ 2019-02-21 11:53 xiaolaotou 阅读(604) 评论(0) 推荐(0) 编辑
摘要: Sqoop: 1、sqoop从数据库中导入数据到HDFS 2、SQOOP从数据库导入数据到hive 3、sqoop从hive中将数据导出到数据库 sqoop底层还是执行的mapreduce程序,,但是特殊的地方只有map TASK 可以实现:企业级数据仓库、文档型系统、关系型数据库<--> sqoo 阅读全文
posted @ 2019-02-21 11:47 xiaolaotou 阅读(764) 评论(0) 推荐(0) 编辑
摘要: flume伪分布式安装: 1、导包:apache-flume-1.7.0-bin.tar.gz 2、配置环境变量:/etc/profile export FLUME_HOME=/yang/apache-flume-1.7.0-bin export PATH=$PATH:$FLUME_HOME/bin 阅读全文
posted @ 2019-02-21 11:39 xiaolaotou 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 一、flume集成hdfs,将数据写入到hdfs a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type =avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=8888 #存 阅读全文
posted @ 2019-02-21 11:31 xiaolaotou 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 1、flume是分布式的日志收集系统,把手机来的数据传送到目的地去 2、flume传输的数据的基本单位是 event,如果是文本文件,通常是一行记录。 event代表着一个数据流的最小完整单元,由零个或多个header和正文组成,header类似于http头,包含时间的时间戳或者来源服务器主机名等。 阅读全文
posted @ 2019-02-21 11:24 xiaolaotou 阅读(1235) 评论(0) 推荐(0) 编辑
摘要: 一、概念 使用BlukLoad方式利用Hbase的数据信息是 按照特点格式存储在HDFS里的特性,直接在HDFS中生成持久化的Hfile数据格式文件,然后完成巨量数据快速入库的操作,配合MapReduce完成这样的操作。 二、优点 1、不占用Region资源 2、不会产生巨量的写入I/O、 3、只需 阅读全文
posted @ 2019-02-21 11:20 xiaolaotou 阅读(837) 评论(0) 推荐(0) 编辑
摘要: 伪分布式: 1、先将zk启动,如果是在伪分布式下,kafka已经集成了zk nohup /kafka_2.11-0.10.0.1/bin/zookeeper-server-start.sh /kafka_2.11-0.10.0.1/config/zookeeper.properties & 2、启动 阅读全文
posted @ 2019-02-21 11:10 xiaolaotou 阅读(426) 评论(0) 推荐(0) 编辑