摘要: TOP N是实现最大/小N条数据。 鉴于Hive提供了limit关键字,配合排序功能就很容易实现了。 但是Hive中order by只能生成1个reduce,如果表的数据量太大,order by 就会有心无力 例如SQL:select a from t_test order by a limit 1 阅读全文
posted @ 2020-03-23 10:45 海贼王一样的男人 阅读(1402) 评论(0) 推荐(0) 编辑
摘要: http://lxw1234.com/archives/2015/04/20.htm http://lxw1234.com/archives/2015/08/473.htm 阅读全文
posted @ 2019-12-26 11:00 海贼王一样的男人 阅读(204) 评论(0) 推荐(0) 编辑
摘要: Scala提供了一个强大的匹配功能 模式匹配,类似于Java的switch case语法,即对一个值进行判断,针对不同的条件,做出不同的判断。 Scala的模式匹配比Java的Switch case功能强大的多。后者只能对值进行判断,但是前者除了可以对值判断以外,还可以对类型进行匹配,对Array、 阅读全文
posted @ 2019-12-24 16:15 海贼王一样的男人 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 从RDBMS到HIVE: sqoop import --connect jdbc:oracle:thin:@//192.168.156.111/test--username test --password test --query select * from it.t_test where inse 阅读全文
posted @ 2019-12-23 15:13 海贼王一样的男人 阅读(2541) 评论(0) 推荐(0) 编辑
摘要: 产生背景:sqoop抽取oracle数据到hive表时,只能写入到固定分区(--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值)。于是先把数据抽取到一张增量表,然后从增量表动态写入分区表。 set hive.exec.dyna 阅读全文
posted @ 2019-12-19 21:51 海贼王一样的男人 阅读(4650) 评论(0) 推荐(0) 编辑
摘要: 由于streaming流程序一旦运行起来,基本上是无休止的状态,除非是特殊情况,否则是不会停的。因为每时每刻都有可能在处理数据,如果要停止也需要确认当前正在处理的数据执行完毕,并且不能再接受新的数据,这样才能保证数据不丢不重。 同时,也由于流程序比较特殊,所以也不能直接kill -9这种暴力方式停掉 阅读全文
posted @ 2019-11-29 19:56 海贼王一样的男人 阅读(1714) 评论(0) 推荐(0) 编辑
摘要: 由split("\,")引起的指标越界异常 如果字符串最后分隔符里的字段为空,使用split("\\,")进行切割时,最后的空字段不会切割 例如"a,b,b,,,",arr[3]会报异常 解决办法: split("\\,",-1)进行切割 原因: 如果字符串最后分隔符里的字段为空,使用split(" 阅读全文
posted @ 2019-11-28 16:23 海贼王一样的男人 阅读(789) 评论(0) 推荐(0) 编辑
摘要: 版本说明:spark:2.2.0; kafka:0.10.0.0 object StreamingDemo { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.WA 阅读全文
posted @ 2019-11-27 16:44 海贼王一样的男人 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 创建topic bin/kafka-topics.sh --create --zookeeper node-01:2181 --replication-factor 4 --partitions 3 --topic test partitions 指定topic分区数。 控制将topic分成多少个l 阅读全文
posted @ 2019-11-27 16:35 海贼王一样的男人 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Hive在分布式运行的时候最害怕的是数据倾斜,这是由于分布式系统的特性决定的,因为分布式系统之所以很快是由于作业平均分配给了不同的节点,不同节点同心协力,从而达到更快处理完作业的目的。 Hive中数据倾斜的原因: 数据在分布式节点上分部不均衡 join时某些key可能特别大(常见null值) gro 阅读全文
posted @ 2019-11-25 11:25 海贼王一样的男人 阅读(399) 评论(0) 推荐(0) 编辑