TheBug - 博客园

[置顶] Google Professional Data Engineer(PDE)考试

摘要：在国内参加PDE考试的人比较少，导致资料也很少。我在19年1月30号去上海参加PDE考试，参加前也是完全没底，因为时间短资料少，但幸运的是顺利通过了。回过头来看，其中有些技巧和重点，在此做一些总结，希望可以给参加PDE考试的同学提供一些帮助。阅读全文

posted @ 2019-02-10 09:08 TheBug 阅读(1099) 评论(0) 推荐(0) 编辑

[置顶] 程序员必备网站

摘要：不知道为什么，被管理员移出了首页，看来管理员觉得我的字太少了，或者觉得我有打广告的嫌疑，不过这些网址全是干货，有很多我觉得非常珍贵，不是你随便就可以找到的，是我几年保存的，写代码可能随手就用，需要的保存欧。顺便也吐槽一下发布博客园首页的规则，完全靠手工审核，真的觉得有些问题，前段时间也看到有小伙伴在... 阅读全文

posted @ 2014-07-20 21:33 TheBug 阅读(1714) 评论(8) 推荐(3) 编辑

[置顶] CPU 硬盘性能到底相差多少

摘要：本文以一个现代的、实际的个人电脑为对象，分析其中CPU（Intel Core 2 Duo 3.0GHz）以及各类子系统的运行速度——延迟和数据吞吐量。通过粗略的估算PC各个组件的相对运行速度，希望能给大家留下一个比较直观的印象。本文中的数据来自实际应用，而非理论最大值。时间的单位是纳秒（ns，十亿分之一秒），毫秒（ms，千分之一秒），和秒（s）。吞吐量的单位是兆字节（MB）和千兆字节（GB）。让我们先从CPU和内存开始，下图是北桥部分：第一个令人惊叹的事实是：CPU快得离谱。在Core 2 3.0GHz上，大部分简单指令的执行只需要一个时钟周期，也就是1/3纳秒。即使是真空中传播的光，在这段时阅读全文

posted @ 2013-10-19 15:29 TheBug 阅读(4349) 评论(14) 推荐(10) 编辑

2016年2月27日

博客迁移通知

摘要：现在主要专注Spark相关生态的大数据处理，如果感兴趣欢迎关注简书链接 "jacksu简书首页" 阅读全文

posted @ 2016-02-27 10:13 TheBug 阅读(157) 评论(0) 推荐(0) 编辑

2016年1月16日

Spark Streaming使用Kafka保证数据零丢失

摘要： spark streaming如何保证数据不丢失，并且保证exactly-once。阅读全文

posted @ 2016-01-16 17:21 TheBug 阅读(4294) 评论(0) 推荐(1) 编辑

2016年1月12日

Spark Shuffle之Sort Shuffle

摘要：正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-sort shuffle，从1.2.0开始默认为sort shuffle。本节主要介绍sort shuffle。阅读全文

posted @ 2016-01-12 07:57 TheBug 阅读(3224) 评论(0) 推荐(1) 编辑

2016年1月10日

Spark Shuffle之Hash Shuffle

摘要：正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-sort shuffle，从1.2.0开始默认为sort shuffle。本节主要介绍hash shuffle。阅读全文

posted @ 2016-01-10 18:45 TheBug 阅读(1060) 评论(0) 推荐(1) 编辑

2015年11月20日

scala-协变、逆变、上界、下界

摘要：在看开源代码时，经常会遇到协变、逆变、上界、下界的概念，但是这几个概念又比较复杂，必须总结一下，方便下次查阅。阅读全文

posted @ 2015-11-20 07:58 TheBug 阅读(6270) 评论(0) 推荐(1) 编辑

2015年11月17日

scala工具库

摘要： apache开源软件最火的应该是spark，没有之一。为了更好的掌握spark，scala应该是必须学习的，除了掌握基本语法，本文介绍scala的常用工具库。阅读全文

posted @ 2015-11-17 22:51 TheBug 阅读(1347) 评论(0) 推荐(0) 编辑

2015年5月24日

Spark Transformations介绍

摘要： ##背景本文介绍是基于Spark 1.3源码##如何创建RDD？RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。```scalascala> val a = sc.parallelize(1 t... 阅读全文

posted @ 2015-05-24 21:36 TheBug 阅读(1770) 评论(0) 推荐(0) 编辑

2015年4月15日

scala程序运行的几种方式

摘要： # HelloWorld简单实例```scalaobject HelloWorld{ def main(args:Array[String]){ println("HelloWorld") }}```# scala交互式运行```shellscalaWelcome to... 阅读全文

posted @ 2015-04-15 13:38 TheBug 阅读(7431) 评论(0) 推荐(1) 编辑

2015年1月11日

Scala快速入门-函数组合

摘要： 2014年apache开源软件最火的应该是spark，没有之一。为了更好的掌握spark，scala应该是必须学习的。为了一周左右快速入门scala，对scala有个基本认识，不可能像学校那样拿着书系统学习，只能通过官网tutorial以及高手的总结（后面的参考资料）。现把scala的基本知识总结了一下，分享给大家。阅读全文

posted @ 2015-01-11 13:06 TheBug 阅读(900) 评论(1) 推荐(1) 编辑

jacksu|关注大数据技术

公告