10 2016 档案

摘要:摘要:最近在看《机器学习实战》,在code的过程中总是会报一些小错误,所以发下debug过的地方;由于是跳着看的,所以只是其中一部分,希望之后能把这本书我遇见的全部错误都在此更正下。 阅读全文
posted @ 2016-10-29 18:13 混沌战神阿瑞斯 阅读(414) 评论(0) 推荐(0)
摘要:RDD.Action触发SparkContext.run,这里举最简单的例子rdd.count() 阅读全文
posted @ 2016-10-28 18:19 混沌战神阿瑞斯 阅读(1760) 评论(0) 推荐(0)
摘要:三、MapReduce运行原理 1、Map过程简述: 1)读取数据文件内容,对每一行内容解析成<k1,v1>键值对,每个键值对调用一次map函数 2)编写映射函数处理逻辑,将输入的<k1,v1>转换成新的<k2,v2> 3)对输出的<k2,v2>按reducer个数和分区规则进行分区 4)不同的分区 阅读全文
posted @ 2016-10-27 11:31 混沌战神阿瑞斯 阅读(3705) 评论(0) 推荐(1)
摘要:前言:本文是本人学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,如果在阅读中发现内容或者只是阐述有问题的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com 摘要:   1.作业调度核心——DAGScheduler 2.DAGScheduler类说明     2.1DAGScheduler     2.2ActiveJob     2.3Stage     2.4Task   3.工作流程     3.1划分Stage     3.2生成Job,提交Stage     3.3任务集的提交     3.4任务作业完成状态的监控     3.5任务结果的获取 阅读全文
posted @ 2016-10-17 17:16 混沌战神阿瑞斯 阅读(4687) 评论(0) 推荐(0)
摘要:5.1.1. Using Lists as Stacks The list methods make it very easy to use a list as a stack, where the last element added is the first element retrieved 阅读全文
posted @ 2016-10-15 13:18 混沌战神阿瑞斯 阅读(3529) 评论(0) 推荐(0)
摘要:摘要: 1.基本术语 2.运行架构 2.1基本架构 2.2运行流程   2.3相关的类   2.4调度模块: 2.4.1作业调度简介 2.4.2任务调度简介 2.5 RDD运行原理 3.运行模式 3.1 standalone模式 阅读全文
posted @ 2016-10-14 16:49 混沌战神阿瑞斯 阅读(3389) 评论(0) 推荐(0)
摘要:在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。 阅读全文
posted @ 2016-10-10 18:54 混沌战神阿瑞斯 阅读(3280) 评论(0) 推荐(0)
摘要:噪音和降噪 阅读全文
posted @ 2016-10-09 14:56 混沌战神阿瑞斯 阅读(1572) 评论(0) 推荐(0)
摘要:在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。 阅读全文
posted @ 2016-10-07 11:33 混沌战神阿瑞斯 阅读(554) 评论(0) 推荐(0)