快乐的张小凡

2019年6月30日

摘要：第一节：数据一、概念数据就是数值，也就是我们通过观察、实验或计算得出的结果。数字、图片、视频……. 二、分类 1、按照结构分结构化数据：mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列，每一行对应的列的类型一致的。非结构化数据：没有任何结构的数据，视频、图片、音频阅读全文

posted @ 2019-06-30 19:48 快乐的张小凡阅读(153) 评论(0) 推荐(0) 编辑

flume （1）

摘要：第一节：简介一、概念 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。做数据收集的工具，主要用于日志文件的收集。是一阅读全文

posted @ 2019-06-30 17:27 快乐的张小凡阅读(192) 评论(0) 推荐(0) 编辑

azkaban（1）

摘要：第一节：简介一、概念 Azkaban是一套简单的任务调度服务，整体包括三部分webserver、dbserver、executorserver。 Azkaban是linkin的开源项目，开发语言为Java。 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个阅读全文

posted @ 2019-06-30 17:22 快乐的张小凡阅读(423) 评论(0) 推荐(0) 编辑

hive之优化

摘要：第一节：简介 hive的优化 mapreduce的优化 1个reducetask对应的数据量最好不超过2G reducetask的个数最好不超过0.95*datanode的个数第二节：优化手段一、合理选择排序二、合理做笛卡尔积三、in/exists效率低 hive 高效实现手段 inner 阅读全文

posted @ 2019-06-30 17:19 快乐的张小凡阅读(131) 评论(0) 推荐(0) 编辑

hive之数据倾斜

摘要：第一节：简介一、数据倾斜数据倾斜：由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。大数据中不怕数据量大,怕数据倾斜。 hive的数据倾斜 mapreduce的数据倾斜。二、主要表现形式 hive运行日志中 map 100% reduce 97% map 100% reduce 9 阅读全文

posted @ 2019-06-30 17:17 快乐的张小凡阅读(867) 评论(0) 推荐(0) 编辑

hive之执行流程

摘要：一、简介 hive运行的本质就是将hql语句，转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作，是hive执行hql语句的最小单位。二、几个典型语句的分析 1、join 2、group by 3、order by shuffle 的排序，二阅读全文

posted @ 2019-06-30 17:13 快乐的张小凡阅读(195) 评论(0) 推荐(0) 编辑

2019年6月16日

hive的高级应用

摘要：一、进入hive之前的操作 1、简介进入hive客户端之前的操作 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] 2、设置参数相关的 -hiveconf set key=value hive -hiv 阅读全文

posted @ 2019-06-16 23:27 快乐的张小凡阅读(207) 评论(0) 推荐(0) 编辑

多字节分隔符

摘要：一、简介在hive中默认只支持单字节分隔符，不支持多字节（超过一个字节）分割符的。单字节：| . : \t 多字节：|| :: .. create table test01(id int,name string) row format delimited fields terminated by 阅读全文

posted @ 2019-06-16 23:26 快乐的张小凡阅读(587) 评论(0) 推荐(0) 编辑

json字符串解析

摘要：一、简介有一定的格式的字符串 map{}+array[]...... 二、解析方式 1、自己定义udf 2、使用内置的函数 get_json_object(json_txt, path) 参数1：需要解析的json字符串参数2：路径，需要解析出来的当前json串中的路径根目录：最外层的目录 $ 阅读全文

posted @ 2019-06-16 23:25 快乐的张小凡阅读(649) 评论(0) 推荐(0) 编辑

hive之函数

摘要：第一节：内置函数一、显示内置函数列表 show functions；默认271个二、查看函数的基本使用 desc function funname; desc function max; 三、查看函数的详细使用教程 desc function extended funname; desc fu 阅读全文

posted @ 2019-06-16 23:23 快乐的张小凡阅读(521) 评论(0) 推荐(0) 编辑

快乐的小CC

公告