2017 年 3月 5 日随笔档案 - sunrye

2017年3月5日

摘要：首先spark上的svm只能处理线性的，不能处理非线性的。其次spark上的svm求解过程与普通的不同。普通的是通过拉格朗日对偶，然后通过SMO方法求。但是在spark上，则没有通过拉格朗日，而是直接对损失函数利用随机梯度下降方法进行求解。那么，svm的损失函数是啥？其实就是个合页函数+正则化。具体的会在中讲解为啥spark上的svm没有非线性？因为非线性的那个是通过拉格朗日对偶，然后得到的表达式... 阅读全文

posted @ 2017-03-05 12:12 sunrye 阅读(578) 评论(0) 推荐(0) 编辑

决策树对类别型数据的处理

摘要： http://stackoverflow.com/questions/25038294/how-do-i-run-the-spark-decision-tree-with-a-categorical-feature-set-using-scala一开始觉得这个不是问题，因为DT本身就是处理类别型数据的，加上之前自己写代码的时候也都是支持类别型数据的。所以按照自己的理解，如果数据是a,h,yb,c,... 阅读全文

posted @ 2017-03-05 12:11 sunrye 阅读(1835) 评论(0) 推荐(0) 编辑

kmeans

摘要：如果是自己写kmeans的话，会怎么写呢？首先kmeans的算法步骤是随机选取k个点作为初始的簇心，接着计算各个点到各个簇心的距离，将最近的簇心作为该点的簇心。接着对相同簇心的点做平均，得到下一个簇心接着就是不停地迭代，知道收敛为止那么哪些步骤可以并行计算呢？这里主要有两部分计算量第一部分是计算各个点到各个簇心的距离，并选取最短的簇心作为自己的簇心第二部分是计算每个簇的均值从而获得下个迭代的簇心目... 阅读全文

posted @ 2017-03-05 12:11 sunrye 阅读(369) 评论(0) 推荐(0) 编辑

streaming kafka direct 详解

摘要： http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ http://www.jianshu.com/p/b4af851286e5 streaming通过direct接收数据的入口是createDirectStream，调用该方法的时候会先创建val kc = new KafkaCl... 阅读全文

posted @ 2017-03-05 12:10 sunrye 阅读(707) 评论(0) 推荐(0) 编辑

Tungsten

摘要： https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html这个是spark1.4后引入的一个东西，他的目的主要是提高内存和CPU的利用率。感觉挺奇怪的，不是一直说瓶颈在于IO和网络带宽么，怎么现在还来提高内存和CPU的利用率了？为啥就说CPU和内存就说瓶颈了？在作者... 阅读全文

posted @ 2017-03-05 12:09 sunrye 阅读(481) 评论(0) 推荐(0) 编辑

Spark 各个组件关系

摘要： TermMeaningApplicationUser program built on Spark. Consists of a driver program and executors on the cluster.Application jarA jar containing the user's Spark application. In some cases users will want... 阅读全文

posted @ 2017-03-05 12:08 sunrye 阅读(3231) 评论(0) 推荐(1) 编辑

关于局部变量存放在栈区的问题

摘要：昨天在看jvm运行态数据存放区域的时候，看到他的栈区用于存放局部变量，突然有个问题，为啥局部变量要放在栈中。似乎之前学C的时候，C的局部变量也是放在栈中，当时学写汇编的时候似乎没有这方面的问题。好吧，来整理下。产生这个问题的主要原因是，局部变量为啥要用栈结构来保存，因为觉得栈访问的时候会pop，这样的话就会将局部变量给弄没了，这不是懵逼了么。后来仔细想了想当时自己写OS的时候的想法，其实这里访问的... 阅读全文

posted @ 2017-03-05 12:06 sunrye 阅读(1850) 评论(0) 推荐(1) 编辑