彬在俊

摘要：测试环境：依赖组件版本cdh版本5.13操作系统版本centos 6.9问题现象：因为是在虚拟机中搭建cdh大数据平台，虚拟机内... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(838) 评论(0) 推荐(0) 编辑

摘要：转自：http://www.throwable.club/2018/12/16/zookeeper-curator-usage/ Zookeeper客户端Curator使用详解 ... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(69) 评论(0) 推荐(0) 编辑

摘要：目录一、HDFS 1. HDFS的读流程 2. HDFS的写流程 3. Hadoop有哪些配置文件？ 4. 小文件过多会造成什么影响？ 5. block为什么设置成128M，为什么不建议设置太大，或者太小？ 6. namenode对元数据的... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(287) 评论(0) 推荐(0) 编辑

摘要： 1.Kafka的用途有哪些？使用场景如何？消息队列。都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能存储系统。Kafka 把消息持久化到磁盘，相比于其他基于内存存储的系统而言，有效地降低了数据丢失的风险。流式处理平台。Kafka 不... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(166) 评论(0) 推荐(0) 编辑

摘要：作者：水车出处：https://www.cnblogs.com/shuiche/p/9436126.html source命令用法 source Fi... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(598) 评论(0) 推荐(0) 编辑

摘要：转自：http://dblab.xmu.edu.cn/blog/spark/ 一、声名值和变量 1. val变量 1.1 隐式声明变量 scala> val myStr = "Hello World!"myStr: String = Hell... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(207) 评论(0) 推荐(0) 编辑

摘要：总结《SparkStreaming实时流式大数据处理实战》一、初始spark 1. 初始sparkstreaming 1.1 大数据处理模式 1. 一种是原生流处理(Native)的方式，即所有输入记录会一条接一条地被处理，storm 和 fli... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(553) 评论(0) 推荐(0) 编辑

摘要：转自：https://blog.csdn.net/weixin_37766087/article/details/100940409 说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with A... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(137) 评论(0) 推荐(0) 编辑

摘要： 1. usage of api document as @since 1.8+ IDEA出现错误： Usage of API documented as @since 1.8+ less… This inspection finds ... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(332) 评论(0) 推荐(0) 编辑

摘要： UDF几个相关概念： UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/mi... 阅读全文

posted @ 2022-11-10 19:26 彬在俊阅读(65) 评论(0) 推荐(0) 编辑