2015 年 5月 3 日随笔档案 - bourneli

2015年5月3日

摘要：前言最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。单机上一些直观的操作（递归），在分布式数据上，必须进行优化，否则I/O（网络，磁盘）会消耗大量时间。本文整理spark随机森林实现中的相关技巧，方便后面回顾。随机森林算法概要随机森林算法的详细实现和细节，可以参考论文Brei... 阅读全文

posted @ 2015-05-03 14:23 bourneli 阅读(9021) 评论(0) 推荐(0) 编辑

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

公告