上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 53 下一页

统计学习方法笔记 -- KNN

摘要: K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是根据训练集中k个最近邻,通过多数表决的方式进行预测。所以模型需要保留所有训练集数据,而象感知机这样的模型只需要保存训练后的参数即可,训练集不需要保留 K近邻算法 K近邻法三要素 和... 阅读全文
posted @ 2014-03-18 18:21 fxjwind 阅读(1121) 评论(0) 推荐(0) 编辑

统计学习方法笔记 -- 感知机

摘要: 感知机(perceptron),听着很牛比,其实就是二类分类的线性分类模型 属于判别模型,1957年由Rosenblatt提出,是神经网络和支持向量机的基础 任何统计机器学习都是三要素,只需要说清楚模型,策略和算法 感知机模型 感知机是一种线性分类模型。 假设空间是定义在特征空间中的线性分类模型或线性分类器,即函数集合 几何解释为, 线性方程,wx... 阅读全文
posted @ 2014-03-18 15:03 fxjwind 阅读(1569) 评论(0) 推荐(0) 编辑

统计学习方法笔记 -- 概论

摘要: 统计学习方法是基于训练数据构建统计模型,从而对数据进行预测和分析。 统计学习分为,监督学习(supervised learning),非监督学习,半监督学习和强化学习(reinforcement learning),其中以监督学习最为常见和重要,所以这里只讨论监督学习 统计学习的过程如下, 1. 获取训练数据集合 2. 确定假设空间,即所有可能的模型的集合 3. 确定模型选择... 阅读全文
posted @ 2014-03-14 18:25 fxjwind 阅读(2562) 评论(3) 推荐(1) 编辑

Spark Streaming源码分析 – Checkpoint

摘要: PersistenceStreaming没有做特别的事情,DStream最终还是以其中的每个RDD作为job进行调度的,所以persistence就以RDD为单位按照原先Spark的方式去做就可以了,不同的是Streaming是无限,需要考虑Clear的问题在clearMetadata时,在删除过期的RDD的同时,也会做相应的unpersist比较特别的是,NetworkInputDStream,... 阅读全文
posted @ 2014-03-12 15:30 fxjwind 阅读(3405) 评论(0) 推荐(0) 编辑

Spark Streaming源码分析 – JobScheduler

摘要: 先给出一个job从被generate到被执行的整个过程在JobGenerator中,需要定时的发起GenerateJobs事件,而每个job其实就是针对DStream中的一个RDD,发起一个SparkContext.runJob,通过对DStream中每个RDD都runJob来模拟流处理 //StreamingContext.scalaprivate[streaming] val schedule... 阅读全文
posted @ 2014-03-10 17:02 fxjwind 阅读(1480) 评论(0) 推荐(0) 编辑

Spark Streaming源码分析 – InputDStream

摘要: 对于NetworkInputDStream而言,其实不是真正的流方式,将数据读出来后不是直接去处理,而是先写到blocks中,后面的RDD再从blocks中读取数据继续处理这就是一个将stream离散化的过程NetworkInputDStream就是封装了将数据从source中读出来,然后放到blocks里面去的逻辑(Receiver线程)还需要一个可以管理NetworkInputDStream,... 阅读全文
posted @ 2014-03-07 18:08 fxjwind 阅读(2144) 评论(4) 推荐(1) 编辑

Spark Streaming源码分析 – DStream

摘要: A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous sequence of RDDs (of the same type) representing a continuous stream of data.Dstream本质就是离散化的stream,将stream离散化成... 阅读全文
posted @ 2014-03-06 18:15 fxjwind 阅读(2827) 评论(0) 推荐(1) 编辑

Apache Kafka源码分析 – Replica and Partition

摘要: Replica 对于local replica, 需要记录highWatermarkValue,表示当前已经committed的数据对于remote replica,需要记录logEndOffsetValue以及更新的时间 package kafka.clusterclass Replica(val brokerId: Int, val partition: Parti... 阅读全文
posted @ 2014-03-03 18:01 fxjwind 阅读(1157) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 – ReplicaManager

摘要: 如果说controller作为master,负责全局的事情,比如选取leader,reassignment等那么ReplicaManager就是worker,负责完成replica的管理工作 主要工作包含,stopReplicagetOrCreatePartitiongetLeaderReplicaIfLocalgetReplicareadMessageSetsbecomeLeaderOrFoll... 阅读全文
posted @ 2014-03-03 15:19 fxjwind 阅读(1350) 评论(0) 推荐(0) 编辑

kafka Detailed Replication Design V3

摘要: 参考,https://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Major changes compared with the v2 proposal. 最大的不同在于加入Controller,简化partition的leader electing并且除了将改动更新到ZK上以外,co... 阅读全文
posted @ 2014-02-28 18:26 fxjwind 阅读(855) 评论(0) 推荐(0) 编辑
上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 53 下一页