王宝生 - 博客园

[置顶] ZooKeeper个人笔记客户端watcher和AsycCallback回调

摘要：每一个Watcher具有如下属性： 1.KeeperState 2.EventType 3.path 4.process(WatchedEvent evnet)回掉方法 Watcher干嘛的？用户监听session的状态，数据节点的状态等。 watcher种类：defaultWatcher，非def 阅读全文

posted @ 2016-02-29 10:18 王宝生阅读(3907) 评论(0) 推荐(0) 编辑

[置顶] Spark 资源池简介

摘要：在一个application内部，不同线程提交的Job默认按照FIFO顺序来执行,假设线程1先提交了一个job1，线程2后提交了一个job2，那么默认情况下，job2必须等待job1执行完毕后才能执行，如果job1是一个长作业，而job2是一个短作业，那么这对于提交job2的那个线程的用户来说很不友阅读全文

posted @ 2016-02-23 14:28 王宝生阅读(3527) 评论(0) 推荐(2) 编辑

[置顶] Spark Application的调度算法

摘要：要想明白spark application调度机制，需要回答一下几个问题： 1.谁来调度？ 2.为谁调度？ 3.调度什么？ 3.何时调度？ 4.调度算法前四个问题可以用如下一句话里来回答:每当集群资源发生变化时，active master 进程为所有已注册的并且没有调度完毕的applicati 阅读全文

posted @ 2016-02-21 19:42 王宝生阅读(2245) 评论(1) 推荐(2) 编辑

2016年11月17日

spark 问题

摘要：问题描述1 使用spark-shell ，sc.textFile(“hdfs://test02.com:8020/tmp/w”).count 出现如下异常： java.lang.RuntimeException: Error in configuring object at org.apache.h 阅读全文

posted @ 2016-11-17 15:10 王宝生阅读(2380) 评论(0) 推荐(0) 编辑

2016年11月11日

读取hdfs文件之后repartition 避免数据倾斜

摘要：场景一： api： textFile("hfds://....").map((key,value)).reduceByKey(...).map(实际的业务计算逻辑) 场景：hdfs的某个文件有183个block，他们的大小分布非常不均匀时，比如有的是200M，有的是1M，有的是10K。此时spark 阅读全文

posted @ 2016-11-11 17:30 王宝生阅读(2131) 评论(0) 推荐(0) 编辑

2016年7月26日

生成树

摘要： 1.树的等价命题 2.树的性质 3.生成树个数 3.最小生成树树是很重要的一个数学概念，同时也是一个很重要的计算机概念。很多图的性质如果不方便验证，都会先在树上面验证。 1.树的等价定义假设T至少有两个顶点，下述命题等价 a.无圈连通图 b.无圈且m=n-1 c.连通且m=n-1 d.连通图删去阅读全文

posted @ 2016-07-26 12:03 王宝生阅读(1129) 评论(0) 推荐(0) 编辑

2016年5月12日

Curator Cache

摘要： 1.Curator Cache 与原生ZooKeeper Wacher区别原生的ZooKeeper Wacher是一次性的：一个Wacher一旦触发就会被移出，如果你想要反复使用Wacher，就要在Wacher被移除后重新注册，使用起来很麻烦。使用Curator Cache 可以反复使用Wache 阅读全文

posted @ 2016-05-12 09:46 王宝生阅读(4114) 评论(0) 推荐(0) 编辑

2016年5月6日

Curator leader 选举(一)

摘要：要想使用Leader选举功能，需要添加recipes包，可以在maven中添加如下依赖： <dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-recipes</artifactId> <version>2.9. 阅读全文

posted @ 2016-05-06 10:54 王宝生阅读(5039) 评论(0) 推荐(1) 编辑

2016年5月4日

Spark ZooKeeper数据恢复

摘要： Spark使用ZooKeeper进行数据恢复的逻辑过程如下： 1.初始化：创建<CuratorFramwork,LeaderLatch,LeaderLatchListener>用于选举创建CuratorFramework用于数据恢复。 2.选举：启动LeaderLatch，Curator开始接管选阅读全文

posted @ 2016-05-04 21:57 王宝生阅读(1160) 评论(0) 推荐(0) 编辑

Curator 异步获取结果

摘要：原声的ZooKeeper 的CRUD API有同步和异步之分，对于异步API，需要传递AsyncCallback回调。对于getData,getChildren，exists这三个API，还可以设置Watcher。这些功能在Curator中是如何实现的？在Curator中，可以通过如下三种方式来异阅读全文

posted @ 2016-05-04 15:33 王宝生阅读(1669) 评论(0) 推荐(0) 编辑

2016年4月22日

spark shuffle 相关细节整理

摘要： 1.Shuffle Write 和Shuffle Read具体发生在哪里 2.哪里用到了Partitioner 3.何为mapSideCombine 4.何时进行排序之前已经看过spark shuffle源码了，现在总结一下一些之前没有理解的小知识点，作为一个总结。用户自定义的Partition 阅读全文

posted @ 2016-04-22 09:47 王宝生阅读(814) 评论(0) 推荐(0) 编辑

2016年4月8日

matlab 求解线性方程组之LU分解

摘要：线性代数中的一个核心思想就是矩阵分解，既将一个复杂的矩阵分解为更简单的矩阵的乘积。常见的有如下分解： LU分解：A=LU，A是m×n矩阵，L是m×m下三角矩阵，U是m×n阶梯形矩阵 QR分解: 秩分解:A=CD , A是m×n矩阵，C是m×4矩阵，D是4×n矩阵。奇异值分解：A=UDVT 谱分解：阅读全文

posted @ 2016-04-08 15:48 王宝生阅读(5376) 评论(0) 推荐(0) 编辑

2016年4月7日

matlab 求解线性方程组之范数

摘要： 1.赋范线性空间和内积空间在线性代数的初级教材里，一般是在向量空间中定义内积，然后再由内积来导出范数，比如在n维实向量空间中： |x||=√<x,x> 在线性代数的高级教材中，一般是将内积和范数单独来定义的，而这之间可能并没有直接的关系。在向量空间中引入范数，可以得到一个赋范线性空间(normed 阅读全文

posted @ 2016-04-07 12:17 王宝生阅读(939) 评论(0) 推荐(0) 编辑

FrancisYoung

公告