摘要:
在国内参加PDE考试的人比较少,导致资料也很少。我在19年1月30号去上海参加PDE考试,参加前也是完全没底,因为时间短资料少,但幸运的是顺利通过了。回过头来看,其中有些技巧和重点,在此做一些总结,希望可以给参加PDE考试的同学提供一些帮助。 阅读全文
摘要:
不知道为什么,被管理员移出了首页,看来管理员觉得我的字太少了,或者觉得我有打广告的嫌疑,不过这些网址全是干货,有很多我觉得非常珍贵,不是你随便就可以找到的,是我几年保存的,写代码可能随手就用,需要的保存欧。顺便也吐槽一下发布博客园首页的规则,完全靠手工审核,真的觉得有些问题,前段时间也看到有小伙伴在... 阅读全文
摘要:
本文以一个现代的、实际的个人电脑为对象,分析其中CPU(Intel Core 2 Duo 3.0GHz)以及各类子系统的运行速度——延迟和数据吞吐量。通过粗略的估算PC各个组件的相对运行速度,希望能给大家留下一个比较直观的印象。本文中的数据来自实际应用,而非理论最大值。时间的单位是纳秒(ns,十亿分之一秒),毫秒(ms,千分之一秒),和秒(s)。吞吐量的单位是兆字节(MB)和千兆字节(GB)。让我们先从CPU和内存开始,下图是北桥部分:第一个令人惊叹的事实是:CPU快得离谱。在Core 2 3.0GHz上,大部分简单指令的执行只需要一个时钟周期,也就是1/3纳秒。即使是真空中传播的光,在这段时 阅读全文
摘要:
现在主要专注Spark相关生态的大数据处理,如果感兴趣欢迎关注简书链接 "jacksu简书首页" 阅读全文
摘要:
spark streaming如何保证数据不丢失,并且保证exactly-once。 阅读全文
摘要:
正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-sort shuffle,从1.2.0开始默认为sort shuffle。本节主要介绍sort shuffle。 阅读全文
摘要:
正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-sort shuffle,从1.2.0开始默认为sort shuffle。本节主要介绍hash shuffle。 阅读全文
摘要:
在看开源代码时,经常会遇到协变、逆变、上界、下界的概念,但是这几个概念又比较复杂,必须总结一下,方便下次查阅。 阅读全文
摘要:
apache开源软件最火的应该是spark,没有之一。为了更好的掌握spark,scala应该是必须学习的,除了掌握基本语法,本文介绍scala的常用工具库。 阅读全文
摘要:
##背景本文介绍是基于Spark 1.3源码##如何创建RDD?RDD可以从普通数组创建出来,也可以从文件系统或者HDFS中的文件创建出来。举例:从普通数组创建RDD,里面包含了1到9这9个数字,它们分别在3个分区中。```scalascala> val a = sc.parallelize(1 t... 阅读全文
摘要:
# HelloWorld简单实例```scalaobject HelloWorld{ def main(args:Array[String]){ println("HelloWorld") }}```# scala交互式运行```shellscalaWelcome to... 阅读全文
摘要:
2014年apache开源软件最火的应该是spark,没有之一。为了更好的掌握spark,scala应该是必须学习的。为了一周左右快速入门scala,对scala有个基本认识,不可能像学校那样拿着书系统学习,只能通过官网tutorial以及高手的总结(后面的参考资料)。现把scala的基本知识总结了一下,分享给大家。 阅读全文