10 2016 档案
摘要:摘要:最近在看《机器学习实战》,在code的过程中总是会报一些小错误,所以发下debug过的地方;由于是跳着看的,所以只是其中一部分,希望之后能把这本书我遇见的全部错误都在此更正下。
阅读全文
摘要:RDD.Action触发SparkContext.run,这里举最简单的例子rdd.count()
阅读全文
摘要:三、MapReduce运行原理 1、Map过程简述: 1)读取数据文件内容,对每一行内容解析成<k1,v1>键值对,每个键值对调用一次map函数 2)编写映射函数处理逻辑,将输入的<k1,v1>转换成新的<k2,v2> 3)对输出的<k2,v2>按reducer个数和分区规则进行分区 4)不同的分区
阅读全文
摘要:前言:本文是本人学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,如果在阅读中发现内容或者只是阐述有问题的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com
摘要:
1.作业调度核心——DAGScheduler
2.DAGScheduler类说明
2.1DAGScheduler
2.2ActiveJob
2.3Stage
2.4Task
3.工作流程
3.1划分Stage
3.2生成Job,提交Stage
3.3任务集的提交
3.4任务作业完成状态的监控
3.5任务结果的获取
阅读全文
摘要:5.1.1. Using Lists as Stacks The list methods make it very easy to use a list as a stack, where the last element added is the first element retrieved
阅读全文
摘要:摘要:
1.基本术语
2.运行架构
2.1基本架构
2.2运行流程
2.3相关的类
2.4调度模块:
2.4.1作业调度简介
2.4.2任务调度简介
2.5 RDD运行原理
3.运行模式
3.1 standalone模式
阅读全文
摘要:在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。
阅读全文
摘要:在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。
阅读全文

浙公网安备 33010602011771号