摘要: 数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢? 当然,浪尖写本文还有另一个目的就是复习hive的四by。不止是否有印象呢? Hive : SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY 欢 阅读全文
posted @ 2018-09-12 10:44 马竹君 阅读(1797) 评论(0) 推荐(0) 编辑
摘要: 前面一篇文章,三种采样机制的其中一种 复习:聊聊hive随机采样① 今天将剩下的两种,分桶采样和数据块采样。 当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。 阅读全文
posted @ 2018-09-12 10:43 马竹君 阅读(1275) 评论(0) 推荐(0) 编辑
摘要: 本文主要是讲解Spark Streaming与kafka结合的新增分区检测的问题。读本文前关于kafka与Spark Streaming结合问题请参考下面两篇文章: 1,必读:再讲Spark与kafka 0.8.2.1+整合 2,必读:Spark与kafka010整合 读本文前是需要了解Spark 阅读全文
posted @ 2018-09-11 14:13 马竹君 阅读(2131) 评论(0) 推荐(1) 编辑
摘要: 阅读本文之前,推荐阅读: 基于zookeeper leader选举方式一 Kafka源码系列之源码分析zookeeper在kafka的作用 观察者简介 回顾一下Zookeeper的运行时的角色。 观察者的设计是希望能动态扩展zookeeper集群又不会降低写性能。 ? 虽然通过让客户端直接连接到集群 阅读全文
posted @ 2018-09-11 14:13 马竹君 阅读(1829) 评论(0) 推荐(0) 编辑
摘要: 做过一段时间spark的应用开发的小伙伴都会渐渐发现,很没趣,因为都是调API。那么,真的是没趣吗,还是说你本身没有去深入研究呢?通过本文你就会发现自己没成长是哪的问题了。 浪尖会花一段时间在spark的算子原理分析和高性能使用对比方面的分析,并将这些知识放到浪尖的知识星球里。有兴趣的同学扫描底部二 阅读全文
posted @ 2018-09-11 14:12 马竹君 阅读(5540) 评论(1) 推荐(0) 编辑
摘要: 1. 计算机基础: 主要学习:1.向量,链表,栈,队列和堆,词典。熟悉2.树,二叉搜索树。熟悉3.图,有向图,无向图,基本概念4.二叉搜索A,B,C类熟练,9大排序熟悉。5.树的前中后,层次,之字,最短路。6.KMP等字符串算法。 主要学习:1.进程,线程,进程线程区别。进程间通信2.进程调度算法理 阅读全文
posted @ 2018-09-11 14:11 马竹君 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 本文留言,邀请好友点赞,点赞数超过20有奖励,具体奖励内容,可以细读本文。 ppt全文可关注公众号,后台输入 flink 获取。 CEP业务场景 复杂事件处理(Complex Event Process,简称CEP)用来检测无尽数据流中的复杂模 式,拥有从不同的数据行中辨识查找模式的能力。模式匹配是 阅读全文
posted @ 2018-09-11 14:11 马竹君 阅读(8190) 评论(1) 推荐(1) 编辑
摘要: coalesce算子,相当绕口的一个英文单词,来闭上眼睛回忆一下编程手册,咋说的来着? coalesce(numPartitions): ? ? Decrease the number of partitions in the RDD to numPartitions. Useful for run 阅读全文
posted @ 2018-09-11 14:10 马竹君 阅读(451) 评论(0) 推荐(0) 编辑
摘要: D调的暖冬,一位爱思考的程序员,现就职于蚂蚁金服。和暖冬相识于网络,后出差在杭州于某些还在加班的深夜聊过2次。在充满VUCA的时代,在默默coding的背后,要构建自我的软件世界观。 在浩大的软件世界里,作为一名普通程序员,显得十分渺小,甚至会感到迷茫。我们内心崇拜技术,却也对日新月异的技术抱有深深 阅读全文
posted @ 2018-09-11 14:10 马竹君 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 一、前言 近乎所有与Java相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ,复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题,这些看似不常见的概念,都与我们的缓存服务器相关,一般常用的缓存服务器有Redis、Memcached等,而 阅读全文
posted @ 2018-09-11 14:09 马竹君 阅读(1433) 评论(0) 推荐(0) 编辑
友情链接:回力 | 中老年高档女装 | 武汉雅思培训 | 武汉托福 | 武汉sat培训