摘要:
本文主要以mllib 1.1版本为基础,分析决策树的基本原理与源码 一、基本原理 二、源码分析 1、决策树构造 指定决策树训练数据集与策略(Strategy)通过train函数就能得到决策树模型DecisionTreeModel 决策树策略包含了:algo(算法类型:分类、回归),impurity( 阅读全文
摘要:
原创文章,转载请注明: 转载自https://www.cnblogs.com/tovin/p/12161793.html 从atlas官网选择合适版本下载:https://atlas.apache.org/#/Downloads,本文以2.0.0版本为例进行说明: 1、进入源码目录编译,最好选择将h 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4689422.html本文介绍centos 6中CM5.4的安装步骤一、搭建yum仓库 1、搭建web服务器,具体步骤省略 2、下载CM、CDH的parcels包 下载cm rpm包:wget -... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码一、基本原理 理论上,概率模型分类器是一个条件概率模型。 独立的类别变量有若干类别,条件依赖于若干特征变量 ... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的相关系数计算的原理与实现:一、基本原理 在stat包中实现了皮尔逊(Pearso... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的卡方检验的原理与实现:一、基本原理 在stat包中实现了皮尔逊卡方检验,它主要包... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3974417.html本文主要介绍如何在Storm编程实现与Kafka的集成 一、实现模型 数据流程: 1、Kafka Producter生成topic1主题的消息 2、Storm中有个... 阅读全文
摘要:
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3971113.html本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程 在eclipse下创建maven工程,可以参照http://www.cnblogs.com/to... 阅读全文
摘要:
整理Linux系统下一些日常工作中常用工具,旨在提高效率:1、截图软件Shutter2、通讯聊天工具pidgin3、守护进程工具daemontools4、远程桌面服务TigerVNC5、Maven软件包管理工具Apache Archiva6、http://www.processon.com一个好用的... 阅读全文