上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 51 下一页
摘要: 测试环境: 依赖组件版本cdh版本5.13操作系统版本centos 6.9问题现象: 因为是在虚拟机中搭建cdh大数据平台,虚拟机内... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(838) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.throwable.club/2018/12/16/zookeeper-curator-usage/ Zookeeper客户端Curator使用详解 ... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 目录 一、HDFS 1. HDFS的读流程 2. HDFS的写流程 3. Hadoop有哪些配置文件? 4. 小文件过多会造成什么影响? 5. block为什么设置成128M,为什么不建议设置太大,或者太小? 6. namenode对元数据的... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 1.Kafka的用途有哪些?使用场景如何? 消息队列。都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能存储系统。Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。流式处理平台。Kafka 不... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 作者: 水车 出处:https://www.cnblogs.com/shuiche/p/9436126.html source命令用法 source Fi... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(598) 评论(0) 推荐(0) 编辑
摘要: 转自:http://dblab.xmu.edu.cn/blog/spark/ 一、声名值和变量 1. val变量 1.1 隐式声明变量 scala> val myStr = "Hello World!"myStr: String = Hell... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 总结《SparkStreaming实时流式大数据处理实战》 一、初始spark 1. 初始sparkstreaming 1.1 大数据处理模式 1. 一种是原生流处理(Native)的方式,即所有输入记录会一条接一条地被处理,storm 和 fli... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/weixin_37766087/article/details/100940409 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with A... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1. usage of api document as @since 1.8+ IDEA出现错误: Usage of API documented as @since 1.8+ less… This inspection finds ... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(332) 评论(0) 推荐(0) 编辑
摘要: UDF几个相关概念: UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/mi... 阅读全文
posted @ 2022-11-10 19:26 彬在俊 阅读(65) 评论(0) 推荐(0) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 51 下一页