摘要: RDDs弹性分布式数据集 spark就是实现了RDDs编程模型的集群计算平台。有很多RDDs的介绍,这里就不仔细说了,这儿主要看源码。 SparkEnv几个重要组件 BlockManager 主要成员 主要方法 get(blockId: BlockId) 通过BlockId找Block /** * 阅读全文
posted @ 2016-07-11 18:10 Q_Quan 阅读(224) 评论(0) 推荐(0) 编辑
摘要: cache机制 阅读全文
posted @ 2016-07-11 17:42 Q_Quan 阅读(144) 评论(0) 推荐(0) 编辑
摘要: Executor框架 Executor ExecutorService AbstractExecutorService ThreadPoolExecutor ThreadPoolExecutor继承AbstractExecutorService,是一个线程池的具体的实现 内部类 Worker 代表线 阅读全文
posted @ 2016-06-25 15:15 Q_Quan 阅读(648) 评论(0) 推荐(0) 编辑
摘要: FutureTask功能用法 类结构 源码中详细说明了FutureTask生命周期状态及变化 /** * The run state of this task, initially NEW. The run state * transitions to a terminal state only i 阅读全文
posted @ 2016-06-23 10:49 Q_Quan 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 继上一篇文章使用xlrd来读Excel之后,这一篇文章就来介绍下,如何来写Excel,写Excel我们需要使用第三方库xlwt,和xlrd一样,xlrd表示read xls,xlwt表示write xls,同样目前版本只支持97-03版本的Excel。 xlwt下载:xlwt 0.7.4安装xlwt... 阅读全文
posted @ 2015-04-27 21:21 Q_Quan 阅读(444) 评论(0) 推荐(0) 编辑
摘要: Logistic回归的理论内容上篇文章已经讲述过,在求解参数时可以用牛顿迭代,可以发现这种方法貌似太复杂,今天我们介绍另一种方法,叫梯度下降。当然求最小值就是梯度下降,而求最大值相对就是梯度上升。由于,如果,那么得到现在我们要找一组,使得所有的最接近,设现在我们要找一组,使得最小。这就是今天要介绍的... 阅读全文
posted @ 2015-04-25 11:10 Q_Quan 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 最近看《UNIX环境高级编程》多线程同步,看到他举例说条件变量pthread_cond_t怎么用,愣是没有看懂,只好在网上找了份代码,跑了跑,才弄明白[cpp]view plaincopy#include#include#includepthread_mutex_tmutex=PTHREAD_MUT... 阅读全文
posted @ 2015-03-10 21:25 Q_Quan 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 自从多线程编程的概念出现在 Linux 中以来,Linux 多线应用的发展总是与两个问题脱不开干系:兼容性、效率。本文从线程模型入手,通过分析目前 Linux 平台上最流行的 LinuxThreads 线程库的实现及其不足,描述了 Linux 社区是如何看待和解决兼容性和效率这两个问题的。一.基础知... 阅读全文
posted @ 2015-03-08 14:22 Q_Quan 阅读(5035) 评论(0) 推荐(1) 编辑
摘要: 在Linux中,进程是通过文件描述符(file descriptors,简称fd)而不是文件名来访问文件的,文件描述符实际上是一个整数。Linux中规定每个进程能最多能同时使用NR_OPEN个文件描述符,这个值在fs.h中定义,为1024*1024(2.0版中仅定义为256)。每个文件都有一个32位... 阅读全文
posted @ 2015-03-07 15:57 Q_Quan 阅读(1884) 评论(0) 推荐(0) 编辑