摘要:
spark面试问题 1、spark中的RDD是什么,有哪些特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distri 阅读全文
摘要:
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用; UDF只能实现一进一出的操作。 定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, D 阅读全文
摘要:
介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复 阅读全文
摘要:
调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive- 阅读全文
摘要:
Flink是什么 Flink是一个分布式计算引擎 MapReduce Spark Storm 同时支持流计算和批处理 和Spark不同, Flink是使用流的思想做批, Spark是采用做批的思想做流 Flink的优势 和Hadoop相比, Flink使用内存进行计算, 速度明显更优 和同样使用内存 阅读全文
摘要:
1. 堆设置-Xms: :初始堆大小。-Xmx: :最大堆大小。-XX:NewSize=n: :设置年轻代大小。-XX:NewRatio=n: : :设置年轻代和年老代的比值。如:为 3,表示年轻代与年老代比值为 1:3,年轻代占整个年轻代年老代和的 1/4。-XX:SurvivorRatio=n: 阅读全文
摘要:
1、HUE简介 来源 HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoo 阅读全文
摘要:
https://blog.csdn.net/mrbcy/article/details/68965271 https://blog.csdn.net/fashion2014/article/details/78826299 阅读全文
摘要:
vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc 将下方脚本写入redis 阅读全文
摘要:
HBase表类型的设计 1、短宽 这种设计一般适用于: * 有大量的列 * 有很少的行 2、高瘦 这种设计一般适用于: * 有很少的列 * 有大量的行 3、短宽-高瘦的对比 短宽 短宽 * 使用列名进行查询不会跳过行或者存储文件 * 更好的原子性 * 不如高瘦设计的可扩展性 高瘦 高瘦 * 如果使用 阅读全文