bourneli - 博客园

2015年5月28日

摘要：本文目的当前spark（1.3版）随机森林实现，没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验，评估模型整体结果，避免交叉检验带来的计算开销。现在的数据集，变量动辄成百上千，变量权重有助于变量过滤，去掉无用变量，提高计算效率，同时也可以帮助理... 阅读全文

posted @ 2015-05-28 19:39 bourneli 阅读(4166) 评论(0) 推荐(0)

2015年5月3日

Spark随机森林实现学习

摘要：前言最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。单机上一些直观的操作（递归），在分布式数据上，必须进行优化，否则I/O（网络，磁盘）会消耗大量时间。本文整理spark随机森林实现中的相关技巧，方便后面回顾。随机森林算法概要随机森林算法的详细实现和细节，可以参考论文Brei... 阅读全文

posted @ 2015-05-03 14:23 bourneli 阅读(9093) 评论(0) 推荐(0)

2015年4月25日

RDD分区2GB限制

摘要：本文目的最近使用spark处理较大的数据时，遇到了分区2G限制的问题(ken)。找到了解决方法，并且在网上收集了一些资料，记录在这里，作为备忘。问题现象遇到这个问题时，spark日志会报如下的日志，片段1 15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, ... 阅读全文

posted @ 2015-04-25 16:22 bourneli 阅读(10166) 评论(0) 推荐(0)

2015年4月5日

Spark使用总结与分享

摘要：背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD ... 阅读全文

posted @ 2015-04-05 16:11 bourneli 阅读(52759) 评论(3) 推荐(2)

2015年3月7日

Spark核心—RDD初探

摘要：本文目的最近在使用Spark进行数据清理的相关工作，初次使用Spark时，遇到了一些挑（da）战（ken）。感觉需要记录点什么，才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍，作为个人备忘，也希望对读者有用。为什么选择Spark 原因如下代码复用：使用Scala高级语言操作Spark，灵活方便，面向对象，函数编程的语言... 阅读全文

posted @ 2015-03-07 20:36 bourneli 阅读(7293) 评论(0) 推荐(3)

2015年1月11日

机器学习技法--学习笔记04--Soft SVM

摘要：背景之前所讨论的SVM都是非常严格的hard版本，必须要求每个点都被正确的区分开。但是，实际情况时很少出现这种情况的，因为噪声数据时无法避免的。所以，需要在hard SVM上添加容错机制，使得可以容忍少量噪声数据。 "软"化问题软化SVM的思路有点类似正规化，在目标函数添加错误累加项，然后加一个系数，控制对错误的容忍度，并且在约束中添加错误容忍度的约束，形式如下：现... 阅读全文

posted @ 2015-01-11 16:55 bourneli 阅读(5898) 评论(0) 推荐(0)

2015年1月4日

机器学习技法--学习笔记03--Kernel技巧

摘要：背景上一讲从对偶问题的角度描述了SVM问题，但是始终需要计算原始数据feature转换后的数据。这一讲，通过一个kernel（核函数）技巧，可以省去feature转换计算，但是仍然可以利用feature转换的特性。什么是kernel Kernel的其实就是将向量feature转换与点积运算合并后的运算，如下，概念上很简单，但是并不是所有的feature转换函数都有kernel的... 阅读全文

posted @ 2015-01-04 22:30 bourneli 阅读(4307) 评论(0) 推荐(0)

2015年1月3日

机器学习基石--学习笔记02--Hard Dual SVM

摘要：背景上一篇文章总结了linear hard SVM，解法很直观，直接从SVM的定义出发，经过等价变换，转成QP问题求解。这一讲，从另一个角度描述hard SVM的解法，不那么直观，但是可以避免feature转换时的数据计算，这样就可以利用一些很高纬度（甚至是无限维度）的feature转换，得到一些更精细的解。拉格朗日乘子式首先，回顾一下SVM问题的定义，如下：线性约束... 阅读全文

posted @ 2015-01-03 21:33 bourneli 阅读(3172) 评论(0) 推荐(0)

2015年1月2日

机器学习基石--学习笔记01--linear hard SVM

摘要：背景支持向量机（SVM）背后的数学知识比较复杂，之前尝试过在网上搜索一些资料自学，但是效果不佳。所以，在我的数据挖掘工具箱中，一直不会使用SVM这个利器。最近，台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理，所以机会难得，一定要好好把握这次机会，将SVM背后的原理梳理清楚并记录下来。这篇文章总结第一讲linear hard SVM的相关内容。最... 阅读全文

posted @ 2015-01-02 21:21 bourneli 阅读(3857) 评论(0) 推荐(0)

2014年11月18日

特征工程(Feature Enginnering)学习记要

摘要：最近学习特征工程（Feature Enginnering）的相关技术，主要包含两块：特征选取（Feature Selection）和特征抓取（Feature Extraction）。这里记录一些要点，作为备忘。特征选取R中的FSelector包实现了一些特征选取的算法，主要分两大类：Algorith... 阅读全文

posted @ 2014-11-18 19:51 bourneli 阅读(4134) 评论(0) 推荐(0)

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

公告