摘要:
测试环境: 依赖组件版本cdh版本5.13操作系统版本centos 6.9问题现象: 因为是在虚拟机中搭建cdh大数据平台,虚拟机内... 阅读全文
摘要:
转自:http://www.throwable.club/2018/12/16/zookeeper-curator-usage/ Zookeeper客户端Curator使用详解 ... 阅读全文
摘要:
目录 一、HDFS 1. HDFS的读流程 2. HDFS的写流程 3. Hadoop有哪些配置文件? 4. 小文件过多会造成什么影响? 5. block为什么设置成128M,为什么不建议设置太大,或者太小? 6. namenode对元数据的... 阅读全文
摘要:
1.Kafka的用途有哪些?使用场景如何? 消息队列。都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能存储系统。Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。流式处理平台。Kafka 不... 阅读全文
摘要:
作者: 水车 出处:https://www.cnblogs.com/shuiche/p/9436126.html source命令用法 source Fi... 阅读全文
摘要:
转自:http://dblab.xmu.edu.cn/blog/spark/ 一、声名值和变量 1. val变量 1.1 隐式声明变量 scala> val myStr = "Hello World!"myStr: String = Hell... 阅读全文
摘要:
总结《SparkStreaming实时流式大数据处理实战》 一、初始spark 1. 初始sparkstreaming 1.1 大数据处理模式 1. 一种是原生流处理(Native)的方式,即所有输入记录会一条接一条地被处理,storm 和 fli... 阅读全文
摘要:
转自:https://blog.csdn.net/weixin_37766087/article/details/100940409 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with A... 阅读全文
摘要:
1. usage of api document as @since 1.8+ IDEA出现错误: Usage of API documented as @since 1.8+ less… This inspection finds ... 阅读全文
摘要:
UDF几个相关概念: UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/mi... 阅读全文