摘要: 首先spark上的svm只能处理线性的,不能处理非线性的。其次spark上的svm求解过程与普通的不同。普通的是通过拉格朗日对偶,然后通过SMO方法求。但是在spark上,则没有通过拉格朗日,而是直接对损失函数利用随机梯度下降方法进行求解。那么,svm的损失函数是啥?其实就是个合页函数+正则化。具体的会在中讲解为啥spark上的svm没有非线性?因为非线性的那个是通过拉格朗日对偶,然后得到的表达式... 阅读全文
posted @ 2017-03-05 12:12 sunrye 阅读(578) 评论(0) 推荐(0) 编辑
摘要: http://stackoverflow.com/questions/25038294/how-do-i-run-the-spark-decision-tree-with-a-categorical-feature-set-using-scala一开始觉得这个不是问题,因为DT本身就是处理类别型数据的,加上之前自己写代码的时候也都是支持类别型数据的。所以按照自己的理解,如果数据是a,h,yb,c,... 阅读全文
posted @ 2017-03-05 12:11 sunrye 阅读(1835) 评论(0) 推荐(0) 编辑
摘要: 如果是自己写kmeans的话,会怎么写呢?首先kmeans的算法步骤是随机选取k个点作为初始的簇心,接着计算各个点到各个簇心的距离,将最近的簇心作为该点的簇心。接着对相同簇心的点做平均,得到下一个簇心接着就是不停地迭代,知道收敛为止那么哪些步骤可以并行计算呢?这里主要有两部分计算量第一部分是计算各个点到各个簇心的距离,并选取最短的簇心作为自己的簇心第二部分是计算每个簇的均值从而获得下个迭代的簇心目... 阅读全文
posted @ 2017-03-05 12:11 sunrye 阅读(369) 评论(0) 推荐(0) 编辑
摘要: http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ http://www.jianshu.com/p/b4af851286e5 streaming通过direct接收数据的入口是createDirectStream,调用该方法的时候会先创建val kc = new KafkaCl... 阅读全文
posted @ 2017-03-05 12:10 sunrye 阅读(707) 评论(0) 推荐(0) 编辑
摘要: https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html这个是spark1.4后引入的一个东西,他的目的主要是提高内存和CPU的利用率。感觉挺奇怪的,不是一直说瓶颈在于IO和网络带宽么,怎么现在还来提高内存和CPU的利用率了?为啥就说CPU和内存就说瓶颈了?在作者... 阅读全文
posted @ 2017-03-05 12:09 sunrye 阅读(481) 评论(0) 推荐(0) 编辑
摘要: TermMeaningApplicationUser program built on Spark. Consists of a driver program and executors on the cluster.Application jarA jar containing the user's Spark application. In some cases users will want... 阅读全文
posted @ 2017-03-05 12:08 sunrye 阅读(3231) 评论(0) 推荐(1) 编辑
摘要: 昨天在看jvm运行态数据存放区域的时候,看到他的栈区用于存放局部变量,突然有个问题,为啥局部变量要放在栈中。似乎之前学C的时候,C的局部变量也是放在栈中,当时学写汇编的时候似乎没有这方面的问题。好吧,来整理下。产生这个问题的主要原因是,局部变量为啥要用栈结构来保存,因为觉得栈访问的时候会pop,这样的话就会将局部变量给弄没了,这不是懵逼了么。后来仔细想了想当时自己写OS的时候的想法,其实这里访问的... 阅读全文
posted @ 2017-03-05 12:06 sunrye 阅读(1850) 评论(0) 推荐(1) 编辑
摘要: 在函数式语言中,函数是和value一样地位的一等公民,他可以作为变量,或者作为参数传递给另一个函数 ##作为变量 val f=(x:Int)=>x+1 为啥可以这样写? 由于scala是OOP,所以function也是个object。各个function都是继承了Function类,比如Functi 阅读全文
posted @ 2016-03-09 08:51 sunrye 阅读(3942) 评论(0) 推荐(1) 编辑
摘要: 关于PageRank的地位,不必多说。主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如A:B,C,DB:A,DC:AD:B,C由这个我们可以得到网页的转移矩阵 A B C DA 0 1/2 1 0B 1/3 0 0 0C 1/3 1/2 0 0D 1/3 0 0... 阅读全文
posted @ 2015-06-30 21:04 sunrye 阅读(4832) 评论(4) 推荐(2) 编辑
摘要: 在Spark中有许多聚类操作是基于combineByKey的,例如group那个家族的操作等。所以combineByKey这个函数也是比较重要,所以下午花了点时间看来下这个函数。也参考了http://www.tuicool.com/articles/miueaqv这篇博客。先看下combineByK... 阅读全文
posted @ 2015-06-29 17:41 sunrye 阅读(1249) 评论(0) 推荐(0) 编辑