2019 年 2月 21 日随笔档案 - xiaolaotou

2019年2月21日

摘要：一、选出合理的分桶字段。可以拿 (字段中重复值最多的记录数/表的总记录数) 的值作为是否可以作为分桶字段的依据。  查询字段中重复值最多的记录数： COL_COUNT=select column1，count(1) cnt from table_name group by column1 or 阅读全文

posted @ 2019-02-21 18:04 xiaolaotou 阅读(4090) 评论(3) 推荐(0) 编辑

ssh 免密设置

摘要：在master中生成dsa： ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 让matser与slave01做免密： ssh-copy-id -i slave01 测试在master中输入ssh slave01，成功就可以了让matser与slave02做免密：阅读全文

posted @ 2019-02-21 17:58 xiaolaotou 阅读(187) 评论(0) 推荐(0) 编辑

hdfs读写删除过程解析

摘要：一、hdfs文件读取过程 hdfs有一个FileSystem实例，客户端通过调用这个实例的open()方法就可以打开系统中希望读取的文件，hdfs通过rpc协议调用Nadmenode获取block的位置信息，对于文件的每一块，Namenode会返回含有该block副本的Datanode的节点地址；客阅读全文

posted @ 2019-02-21 17:55 xiaolaotou 阅读(2202) 评论(0) 推荐(0) 编辑

flume集成hdfs(hdfs开启kerberos认证)

摘要：）当 sink 到 hdfs 时： ) 需修改 flume-env.sh 配置，增添 hdfs 依赖库： FLUME_CLASSPATH="/root/TDH-Client/hadoop/hadoop/*:/root/TDHClient/hadoop/hadoop-hdfs/*:/root/TDH- 阅读全文

posted @ 2019-02-21 17:18 xiaolaotou 阅读(1367) 评论(0) 推荐(0) 编辑

flume集成kafka(kafka开启kerberos)配置

摘要：根据flume官网：当kafka涉及kerberos认证：涉及两点配置，如下：配置一：见下实例中红色部分配置conf实例： [root@gz237-107 conf]# cat flume_slipstream.conf a1.sources =r1 a1.sinks = k1 a1.chan 阅读全文

posted @ 2019-02-21 14:21 xiaolaotou 阅读(2959) 评论(0) 推荐(0) 编辑

Hbase面试题总结

该文被密码保护。阅读全文

posted @ 2019-02-21 14:17 xiaolaotou 阅读(19) 评论(0) 推荐(0) 编辑

雅虎(ycsb)测试hbase（压测）

摘要：一、下载ycsb 0.10包 https://github.com/brianfrankcooper/YCSB/releases/download/0.10.0/ycsb-0.10.0.tar.gz 二、上传到linux，解压 tar -zxvf ycsb-0.10.0.tar.gz 三、YSCB压阅读全文

posted @ 2019-02-21 13:09 xiaolaotou 阅读(2168) 评论(0) 推荐(0) 编辑

decode函数的几种用法

摘要：来源：https://blog.csdn.net/qq_38941937/article/details/81625691 1、使用decode判断字符串是否一样 decode(value,if1,then1,if2,then2,if3,then3,...,else) 含义为 IF 条件=值1 TH 阅读全文

posted @ 2019-02-21 13:01 xiaolaotou 阅读(62880) 评论(0) 推荐(0) 编辑

NVL函数：空值转换函数

摘要： NVL（表达式1，表达式2）如果表达式1为空值，NVL返回值为表达式2的值，否则返回表达式1的值。该函数的目的是把一个空值（null）转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。对数字型： NVL（ comm,0); 对字符型阅读全文

posted @ 2019-02-21 12:58 xiaolaotou 阅读(1982) 评论(0) 推荐(0) 编辑

hive行转列，列转行

摘要：实例一：来源： https://www.cnblogs.com/kimbo/p/6208973.html 行转列 (对某列拆分，一列拆多行) 使用函数：lateral view explode(split(column, ',')) num eg: 如表：t_row_to_column_tmp 数据阅读全文

posted @ 2019-02-21 12:51 xiaolaotou 阅读(2363) 评论(0) 推荐(0) 编辑

case when then else end用法

摘要： case具有两种格式，简单case函数和case搜索函数 case函数只返回第一个符合条件的值，剩下的case部分将会被自动忽略 1、简单函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END 2、搜索函数 CASE WHEN se 阅读全文

posted @ 2019-02-21 12:43 xiaolaotou 阅读(3403) 评论(0) 推荐(0) 编辑

hive中一般取top n时，row_number(),rank,dense_ran()常用三个函数

摘要：一、分区函数Partition By与row_number()、rank()、dense_rank()的用法（获取分组（分区）中前几条记录）一、数据准备 --1、创建学生成绩表 id int, --主键 Grade int, --班级 Score int --分数 id int, --主键 Gr 阅读全文

posted @ 2019-02-21 12:40 xiaolaotou 阅读(3421) 评论(0) 推荐(0) 编辑

一张图看懂sql的各种join

摘要：下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法. 阅读全文

posted @ 2019-02-21 11:53 xiaolaotou 阅读(604) 评论(0) 推荐(0) 编辑

Sqoop（一）安装及基本使用

摘要： Sqoop: 1、sqoop从数据库中导入数据到HDFS 2、SQOOP从数据库导入数据到hive 3、sqoop从hive中将数据导出到数据库 sqoop底层还是执行的mapreduce程序，，但是特殊的地方只有map TASK 可以实现：企业级数据仓库、文档型系统、关系型数据库<--> sqoo 阅读全文

posted @ 2019-02-21 11:47 xiaolaotou 阅读(764) 评论(0) 推荐(0) 编辑

flume伪分布式安装

摘要： flume伪分布式安装： 1、导包：apache-flume-1.7.0-bin.tar.gz 2、配置环境变量：/etc/profile export FLUME_HOME=/yang/apache-flume-1.7.0-bin export PATH=$PATH:$FLUME_HOME/bin 阅读全文

posted @ 2019-02-21 11:39 xiaolaotou 阅读(383) 评论(0) 推荐(0) 编辑

flume将数据写入各个组件

摘要：一、flume集成hdfs，将数据写入到hdfs a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type =avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=8888 #存阅读全文

posted @ 2019-02-21 11:31 xiaolaotou 阅读(387) 评论(0) 推荐(0) 编辑

flume基本概念及相关参数详解

摘要： 1、flume是分布式的日志收集系统，把手机来的数据传送到目的地去 2、flume传输的数据的基本单位是 event，如果是文本文件，通常是一行记录。 event代表着一个数据流的最小完整单元，由零个或多个header和正文组成，header类似于http头，包含时间的时间戳或者来源服务器主机名等。阅读全文

posted @ 2019-02-21 11:24 xiaolaotou 阅读(1235) 评论(0) 推荐(0) 编辑

通过BulkLoad快速将海量数据导入到Hbase（TDH，kerberos认证）

摘要：一、概念使用BlukLoad方式利用Hbase的数据信息是按照特点格式存储在HDFS里的特性，直接在HDFS中生成持久化的Hfile数据格式文件，然后完成巨量数据快速入库的操作，配合MapReduce完成这样的操作。二、优点 1、不占用Region资源 2、不会产生巨量的写入I/O、 3、只需阅读全文

posted @ 2019-02-21 11:20 xiaolaotou 阅读(837) 评论(0) 推荐(0) 编辑

九、kafka伪分布式和集群搭建

摘要：伪分布式： 1、先将zk启动，如果是在伪分布式下，kafka已经集成了zk nohup /kafka_2.11-0.10.0.1/bin/zookeeper-server-start.sh /kafka_2.11-0.10.0.1/config/zookeeper.properties & 2、启动阅读全文

posted @ 2019-02-21 11:10 xiaolaotou 阅读(426) 评论(0) 推荐(0) 编辑

xiaolaotou

公告