2020年1月8日
摘要: 本文主要以mllib 1.1版本为基础,分析决策树的基本原理与源码 一、基本原理 二、源码分析 1、决策树构造 指定决策树训练数据集与策略(Strategy)通过train函数就能得到决策树模型DecisionTreeModel 决策树策略包含了:algo(算法类型:分类、回归),impurity( 阅读全文
posted @ 2020-01-08 09:42 tovin 阅读(333) 评论(0) 推荐(1) 编辑
  2020年1月7日
摘要: 原创文章,转载请注明: 转载自https://www.cnblogs.com/tovin/p/12161793.html 从atlas官网选择合适版本下载:https://atlas.apache.org/#/Downloads,本文以2.0.0版本为例进行说明: 1、进入源码目录编译,最好选择将h 阅读全文
posted @ 2020-01-07 15:27 tovin 阅读(8090) 评论(0) 推荐(0) 编辑
  2015年7月30日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4689422.html本文介绍centos 6中CM5.4的安装步骤一、搭建yum仓库 1、搭建web服务器,具体步骤省略 2、下载CM、CDH的parcels包 下载cm rpm包:wget -... 阅读全文
posted @ 2015-07-30 15:13 tovin 阅读(783) 评论(0) 推荐(0) 编辑
  2014年10月22日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码一、基本原理 理论上,概率模型分类器是一个条件概率模型。 独立的类别变量有若干类别,条件依赖于若干特征变量 ... 阅读全文
posted @ 2014-10-22 16:01 tovin 阅读(1956) 评论(0) 推荐(2) 编辑
  2014年10月14日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的相关系数计算的原理与实现:一、基本原理 在stat包中实现了皮尔逊(Pearso... 阅读全文
posted @ 2014-10-14 16:47 tovin 阅读(2041) 评论(0) 推荐(0) 编辑
  2014年10月13日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的卡方检验的原理与实现:一、基本原理 在stat包中实现了皮尔逊卡方检验,它主要包... 阅读全文
posted @ 2014-10-13 10:09 tovin 阅读(2211) 评论(0) 推荐(0) 编辑
  2014年9月16日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3974417.html本文主要介绍如何在Storm编程实现与Kafka的集成 一、实现模型 数据流程: 1、Kafka Producter生成topic1主题的消息 2、Storm中有个... 阅读全文
posted @ 2014-09-16 11:59 tovin 阅读(9090) 评论(2) 推荐(1) 编辑
  2014年9月14日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3971113.html本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程 在eclipse下创建maven工程,可以参照http://www.cnblogs.com/to... 阅读全文
posted @ 2014-09-14 15:53 tovin 阅读(8358) 评论(2) 推荐(1) 编辑
摘要: 整理Linux系统下一些日常工作中常用工具,旨在提高效率:1、截图软件Shutter2、通讯聊天工具pidgin3、守护进程工具daemontools4、远程桌面服务TigerVNC5、Maven软件包管理工具Apache Archiva6、http://www.processon.com一个好用的... 阅读全文
posted @ 2014-09-14 11:19 tovin 阅读(455) 评论(0) 推荐(0) 编辑
  2014年9月11日
摘要: 原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3966570.html一、storm集群整体部署 集群总共使用了6台机器: storm使用3个节点(nimbus在node01, supervisor在node02、node03) zooke... 阅读全文
posted @ 2014-09-11 16:04 tovin 阅读(2515) 评论(0) 推荐(0) 编辑