摘要:1、下载MongoDB http://www.mongodb.org/downloads mongodb-linux-x86_64-3.2.8.tgz #目前最新版 2、建议关闭selinux 3、关闭防火墙或都增加MongoDB端口 #清空防火墙 #增加端口 或 4、解压MongoDB 5、创建数 阅读全文
数据分析与挖掘 - R语言:多元线性回归
2016-05-25 16:47 by 猎手家园, 893 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 线性回归主要用来做预测模型。 1、准备数据集: 2、确定线性回归函数:Y = β0 + β1X + ε 其中β0 + β1X 表示Y随X的变化而线性变化的部分;ε是随机误差,是一切不 阅读全文
大数据工具比较:R 语言和 Spark 谁更胜一筹?
2016-05-25 14:26 by 猎手家园, 1118 阅读, 0 推荐, 收藏, 编辑
摘要:本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库 背景介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。 你是否曾 阅读全文
数据分析与挖掘 - R语言:贝叶斯分类算法(案例三)
2016-05-25 14:04 by 猎手家园, 7741 阅读, 0 推荐, 收藏, 编辑
摘要:案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 阅读全文
数据分析与挖掘 - R语言:贝叶斯分类算法(案例二)
2016-05-25 13:43 by 猎手家园, 4240 阅读, 0 推荐, 收藏, 编辑
摘要:接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ 阅读全文
数据分析与挖掘 - R语言:贝叶斯分类算法(案例一)
2016-05-25 13:31 by 猎手家园, 8855 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率。 后验概率:而在得到信息之后,再重新加以修正的概率叫做后验概率。贝叶斯分类是后验概率。 贝叶斯分类算法步骤: 第一步 阅读全文
数据分析与挖掘 - R语言:KNN算法
2016-05-25 11:50 by 猎手家园, 3887 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的点与当前点(未知分类)的距离。2 阅读全文
R语言的scale函数
2016-05-19 10:47 by 猎手家园, 22224 阅读, 0 推荐, 收藏, 编辑
摘要:1、数据的中心化 所谓数据的中心化是指数据集中的各项数据减去数据集的均值。 例如有数据集1, 2, 3, 6, 3,其均值为3 那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2、数据的标准化 所谓数据的标准化是指中心化之后的数据在除以数据集的标准差,即数 阅读全文
R安装package报ERROR: a 'NAMESPACE' file is required
2016-05-18 11:09 by 猎手家园, 1667 阅读, 0 推荐, 收藏, 编辑
摘要:R安装package报错: 解决方案: 安装成功! 阅读全文
极限存储之拉链表
2016-05-17 15:23 by 猎手家园, 874 阅读, 0 推荐, 收藏, 编辑
摘要:在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间 阅读全文