摘要:
一.Flume定义 Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 Flume基本组成架构如下 阅读全文
摘要:
一.什么是yarn Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二.yarn的基本架构和角色 yarn主要由ResourceManager、NodeManager、Applic 阅读全文
摘要:
1.Fetch抓取 Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。 在%HIVE_HOME%/conf/hive-default.x 阅读全文
摘要:
一.Hadoop的压缩配置 1.MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 阅读全文
摘要:
一.定义 官网介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics 窗口函数属于sql中比较高级的函数,mysql从8.0版本才支持窗口函数,mysql5.6,5.7都有窗口函 阅读全文
摘要:
###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF 阅读全文
摘要:
一.行转列 相关函数 concat CONCAT(string A/col, string B/col…):对字符串按次序进行拼接 返回类 concat_ws concat_ws(string SEP, string A, string B...):与concat()类似,但使用指定的分隔符喜进行分 阅读全文
摘要:
一.系统内置函数 1.查看系统自带内置函数 show functions; 2.查看函数的具体用法 如查看upper函数 desc function extended upper; 二.常用内置函数 1.数学函数 round round(DOUBLE a):返回对a四舍五入的BIGINT值 roun 阅读全文
摘要:
一.分区表 1.本质 hive存在问题:hive里面没有索引机制,每次查询的时候,hive会暴力扫描整张表;而分区表的本质就是分目录,按照业务需求,把数据分成多个目录存储,然后查询的时候就可以通过where条件指定对应的分区; 2.创建分区表 create table dept_partition( 阅读全文
摘要:
一. 基本查询 1.1 算数运算符 运算符 描述 A+B A和B 相加 A-B A减去B A*B A和B 相乘 A/B A除以B A%B A对B取余 A&B A和B按位取与 A|B A和B按位取或 A^B A和B按位取异或 ~A A按位取反 案例 查询所有员工的薪水然后加1 select sal+1 阅读全文