上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 51 下一页
摘要: 转自:https://blog.csdn.net/weixin_37766087/article/details/100940409 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严 阅读全文
posted @ 2021-01-26 11:41 彬在俊 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 1. usage of api document as @since 1.8+ IDEA出现错误: Usage of API documented as @since 1.8+ less… This inspection finds all usages of methods that have @ 阅读全文
posted @ 2021-01-26 11:23 彬在俊 阅读(439) 评论(0) 推荐(0) 编辑
摘要: UDF几个相关概念: UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/min【进来多行出去一行】 UDTF: Table-generating o 阅读全文
posted @ 2021-01-26 11:17 彬在俊 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 转载于:https://my.oschina.net/u/4631230/blog/4533371 (a表和b表通过user_id关联) 1.1 a表数据 select * from wedw_dw.t_user; 1.2 b表数据 select * from wedw_dw.t_order; 1. 阅读全文
posted @ 2021-01-24 17:10 彬在俊 阅读(4386) 评论(0) 推荐(0) 编辑
摘要: 一、ACL权限 查看当前/文件夹的权限 hsdf dfs -getfacl / 为root用户在/文件夹下添加rwx权限 hdfs dfs -setfacl -m user:root:rwx / 为root组在文件夹/下添加rwx权限 hdfs dfs -setfacl -m group:root: 阅读全文
posted @ 2021-01-24 16:34 彬在俊 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 转载于:https://blog.csdn.net/weixin_42670653/article/details/100042953 问题: 在docker容器内无法删除文件 dockerfile里 或者在容器内执行完rm -rf之后,文件全部变成??? ??? 原因: centos默认使用的是x 阅读全文
posted @ 2021-01-24 11:04 彬在俊 阅读(1412) 评论(0) 推荐(0) 编辑
摘要: @ RDD实现详解 RDD是Spark最基本也是最根本的数据抽象,本质将数据保存在内存中,并且高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。 1. 什么是RDD RDDDD弹性分布式内存数据集,只读,分区记录的集合,RDD只能基于在稳定物理存储中的数据集和其他已有的 阅读全文
posted @ 2021-01-21 15:20 彬在俊 阅读(573) 评论(0) 推荐(0) 编辑
摘要: @ Spark简介 1.1 spark 是什么? spark是大数据分析引擎,集批处理,实时流计算处理分布式数据集。 Spark实现了一种分布式的内存抽象,称为弹性分布式数据集(Resilient Distributed Dataset,RDD)。它支持基于工作集的应用,同时具有数据流模型的特点:自 阅读全文
posted @ 2021-01-19 11:35 彬在俊 阅读(151) 评论(0) 推荐(0) 编辑
摘要: @ 深入客户端 1. 分区分配策略 设置消费者与订阅主题之间的分区分配策略。 1.1 RangeAssignor分配策略 RangeAssignor 分配策略的原理是**按照消费者总数和分区总数进行整除运算来获得一个跨度,然后将分区按照跨度进行平均分配,以保证分区尽可能均匀地分配给所有的消费者。** 阅读全文
posted @ 2021-01-17 15:13 彬在俊 阅读(150) 评论(0) 推荐(0) 编辑
摘要: @ 深入服务端 1. 时间轮 Kafka中存在大量的延时操作,比如延时生产、延时拉取和延时删而是基于时间轮的概念自定义实现了一个用于延时功能的定时器除等。 为什么不用java自带的延时器? 因为时间复杂度不能满足Kafka的要求,在Netty,Zookeeper,Akka都有时间轮的存在。 时间轮介 阅读全文
posted @ 2021-01-17 12:08 彬在俊 阅读(274) 评论(0) 推荐(0) 编辑
上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 51 下一页