zhangqi0828 - 博客园

2019年6月26日

摘要： spark面试问题 1、spark中的RDD是什么，有哪些特性 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：就是一个集合，用于存放数据的 Distri 阅读全文

posted @ 2019-06-26 23:41 zhangqi0828 阅读(873) 评论(0) 推荐(0) 编辑

2019年6月23日

hive自定义函数UDF UDTF UDAF

摘要： Hive 自定义函数 UDF UDTF UDAF 1.UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, D 阅读全文

posted @ 2019-06-23 15:04 zhangqi0828 阅读(531) 评论(0) 推荐(0) 编辑

hive UDAF开发和运行全过程

摘要：介绍 hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复阅读全文

posted @ 2019-06-23 14:54 zhangqi0828 阅读(1165) 评论(0) 推荐(0) 编辑

2019年6月19日

hive的调优

摘要：调优 1 Fetch抓取（Hive可以避免进行MapReduce） Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive- 阅读全文

posted @ 2019-06-19 16:28 zhangqi0828 阅读(290) 评论(0) 推荐(0) 编辑

2019年6月16日

flink详细介绍

摘要： Flink是什么 Flink是一个分布式计算引擎 MapReduce Spark Storm 同时支持流计算和批处理和Spark不同, Flink是使用流的思想做批, Spark是采用做批的思想做流 Flink的优势和Hadoop相比, Flink使用内存进行计算, 速度明显更优和同样使用内存阅读全文

posted @ 2019-06-16 17:45 zhangqi0828 阅读(535) 评论(0) 推荐(0) 编辑

JVM典型配置和调优举例

摘要： 1. 堆设置-Xms：：初始堆大小。-Xmx：：最大堆大小。-XX:NewSize=n：：设置年轻代大小。-XX:NewRatio=n：：：设置年轻代和年老代的比值。如:为 3，表示年轻代与年老代比值为 1：3，年轻代占整个年轻代年老代和的 1/4。-XX:SurvivorRatio=n：阅读全文

posted @ 2019-06-16 01:33 zhangqi0828 阅读(292) 评论(0) 推荐(0) 编辑

HUE工具使用

摘要： 1、HUE简介来源 HUE=HadoopUser Experience，看这名字就知道怎么回事了吧，没错，直白来说就是Hadoop用户体验，是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoo 阅读全文

posted @ 2019-06-16 01:26 zhangqi0828 阅读(7339) 评论(0) 推荐(0) 编辑

2019年6月15日

经典sql题练习50题

摘要： https://blog.csdn.net/mrbcy/article/details/68965271 https://blog.csdn.net/fashion2014/article/details/78826299 阅读全文

posted @ 2019-06-15 15:14 zhangqi0828 阅读(413) 评论(0) 推荐(0) 编辑

2019年6月12日

配置Redis集群为开机自启动

摘要： vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc vim /etc/init.d/redisc 将下方脚本写入redis 阅读全文

posted @ 2019-06-12 10:30 zhangqi0828 阅读(2289) 评论(2) 推荐(2) 编辑

2019年6月10日

Hbase表类型的设计

摘要： HBase表类型的设计 1、短宽这种设计一般适用于： * 有大量的列 * 有很少的行 2、高瘦这种设计一般适用于： * 有很少的列 * 有大量的行 3、短宽-高瘦的对比短宽短宽 * 使用列名进行查询不会跳过行或者存储文件 * 更好的原子性 * 不如高瘦设计的可扩展性高瘦高瘦 * 如果使用阅读全文

posted @ 2019-06-10 16:39 zhangqi0828 阅读(509) 评论(0) 推荐(0) 编辑

zhangqi

be a coder

公告