fxjwind

统计学习方法笔记 -- KNN

摘要： K近邻法（K-nearest neighbor，k-NN），这里只讨论基于knn的分类问题，1968年由Cover和Hart提出，属于判别模型 K近邻法不具有显式的学习过程，算法比较简单，每次分类都是根据训练集中k个最近邻，通过多数表决的方式进行预测。所以模型需要保留所有训练集数据，而象感知机这样的模型只需要保存训练后的参数即可，训练集不需要保留 K近邻算法 K近邻法三要素和... 阅读全文

posted @ 2014-03-18 18:21 fxjwind 阅读(1146) 评论(0) 推荐(0)

统计学习方法笔记 -- 感知机

摘要：感知机（perceptron），听着很牛比，其实就是二类分类的线性分类模型属于判别模型，1957年由Rosenblatt提出，是神经网络和支持向量机的基础任何统计机器学习都是三要素，只需要说清楚模型，策略和算法感知机模型感知机是一种线性分类模型。假设空间是定义在特征空间中的线性分类模型或线性分类器，即函数集合几何解释为，线性方程，wx... 阅读全文

posted @ 2014-03-18 15:03 fxjwind 阅读(1613) 评论(0) 推荐(0)

统计学习方法笔记 -- 概论

摘要：统计学习方法是基于训练数据构建统计模型，从而对数据进行预测和分析。统计学习分为，监督学习（supervised learning），非监督学习，半监督学习和强化学习（reinforcement learning），其中以监督学习最为常见和重要，所以这里只讨论监督学习统计学习的过程如下， 1. 获取训练数据集合 2. 确定假设空间，即所有可能的模型的集合 3. 确定模型选择... 阅读全文

posted @ 2014-03-14 18:25 fxjwind 阅读(2591) 评论(3) 推荐(1)

Spark Streaming源码分析 – Checkpoint

摘要： PersistenceStreaming没有做特别的事情，DStream最终还是以其中的每个RDD作为job进行调度的，所以persistence就以RDD为单位按照原先Spark的方式去做就可以了，不同的是Streaming是无限，需要考虑Clear的问题在clearMetadata时，在删除过期的RDD的同时，也会做相应的unpersist比较特别的是，NetworkInputDStream，... 阅读全文

posted @ 2014-03-12 15:30 fxjwind 阅读(3432) 评论(0) 推荐(0)

Spark Streaming源码分析 – JobScheduler

摘要：先给出一个job从被generate到被执行的整个过程在JobGenerator中，需要定时的发起GenerateJobs事件，而每个job其实就是针对DStream中的一个RDD，发起一个SparkContext.runJob，通过对DStream中每个RDD都runJob来模拟流处理 //StreamingContext.scalaprivate[streaming] val schedule... 阅读全文

posted @ 2014-03-10 17:02 fxjwind 阅读(1496) 评论(0) 推荐(0)

Spark Streaming源码分析 – InputDStream

摘要：对于NetworkInputDStream而言，其实不是真正的流方式，将数据读出来后不是直接去处理，而是先写到blocks中，后面的RDD再从blocks中读取数据继续处理这就是一个将stream离散化的过程NetworkInputDStream就是封装了将数据从source中读出来，然后放到blocks里面去的逻辑（Receiver线程）还需要一个可以管理NetworkInputDStream，... 阅读全文

posted @ 2014-03-07 18:08 fxjwind 阅读(2171) 评论(4) 推荐(1)

Spark Streaming源码分析 – DStream

摘要： A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous sequence of RDDs (of the same type) representing a continuous stream of data.Dstream本质就是离散化的stream，将stream离散化成... 阅读全文

posted @ 2014-03-06 18:15 fxjwind 阅读(2861) 评论(0) 推荐(1)

Apache Kafka源码分析 – Replica and Partition

摘要： Replica 对于local replica, 需要记录highWatermarkValue，表示当前已经committed的数据对于remote replica，需要记录logEndOffsetValue以及更新的时间 package kafka.clusterclass Replica(val brokerId: Int, val partition: Parti... 阅读全文

posted @ 2014-03-03 18:01 fxjwind 阅读(1182) 评论(0) 推荐(0)

Apache Kafka源码分析 – ReplicaManager

摘要：如果说controller作为master，负责全局的事情，比如选取leader，reassignment等那么ReplicaManager就是worker，负责完成replica的管理工作主要工作包含，stopReplicagetOrCreatePartitiongetLeaderReplicaIfLocalgetReplicareadMessageSetsbecomeLeaderOrFoll... 阅读全文

posted @ 2014-03-03 15:19 fxjwind 阅读(1374) 评论(0) 推荐(0)

kafka Detailed Replication Design V3

摘要：参考，https://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Major changes compared with the v2 proposal. 最大的不同在于加入Controller，简化partition的leader electing并且除了将改动更新到ZK上以外，co... 阅读全文

posted @ 2014-02-28 18:26 fxjwind 阅读(877) 评论(0) 推荐(0)