代码改变世界

数学公式基础知识(更新中...)

2016-08-10 18:18 by 猎手家园, 593 阅读, 0 推荐, 收藏, 编辑
摘要:一、概率 1、定义: 对于古典试验中的事件A,它的概率定义为:P(A)=m/n,其中n表示该试验中所有可能出现的基本结果的总数目。m表示事件A包含的试验基本结果数。 由于频率nA/n总是介于0和1之间,从概率的统计定义可知,对任意事件A,皆有0≤P(A)≤1,P(Ω)=1,P(Φ)=0。其中Ω、Φ分 阅读全文

CentOS6.5安装nginx1.20

2016-08-10 18:06 by 猎手家园, 1561 阅读, 0 推荐, 收藏, 编辑
摘要:1、下载Nginx http://nginx.org/en/download.html nginx-1.20.0.tar.gz (已验证到当前版本) 2、安装依赖 依赖包安装顺序依次为:openssl、zlib、pcre 注:如果没有安装c++编译环境,还得安装,通过yum install gcc- 阅读全文

CentOS6.5安装MongoDB

2016-08-10 15:46 by 猎手家园, 1905 阅读, 0 推荐, 收藏, 编辑
摘要:1、下载MongoDB http://www.mongodb.org/downloads mongodb-linux-x86_64-3.2.8.tgz #目前最新版 2、建议关闭selinux 3、关闭防火墙或都增加MongoDB端口 #清空防火墙 #增加端口 或 4、解压MongoDB 5、创建数 阅读全文

数据分析与挖掘 - R语言:多元线性回归

2016-05-25 16:47 by 猎手家园, 885 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 线性回归主要用来做预测模型。 1、准备数据集: 2、确定线性回归函数:Y = β0 + β1X + ε 其中β0 + β1X 表示Y随X的变化而线性变化的部分;ε是随机误差,是一切不 阅读全文

大数据工具比较:R 语言和 Spark 谁更胜一筹?

2016-05-25 14:26 by 猎手家园, 1101 阅读, 0 推荐, 收藏, 编辑
摘要:本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库 背景介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。 你是否曾 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例三)

2016-05-25 14:04 by 猎手家园, 7727 阅读, 0 推荐, 收藏, 编辑
摘要:案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例二)

2016-05-25 13:43 by 猎手家园, 4217 阅读, 0 推荐, 收藏, 编辑
摘要:接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例一)

2016-05-25 13:31 by 猎手家园, 8835 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率。 后验概率:而在得到信息之后,再重新加以修正的概率叫做后验概率。贝叶斯分类是后验概率。 贝叶斯分类算法步骤: 第一步 阅读全文

数据分析与挖掘 - R语言:KNN算法

2016-05-25 11:50 by 猎手家园, 3876 阅读, 0 推荐, 收藏, 编辑
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的点与当前点(未知分类)的距离。2 阅读全文

R语言的scale函数

2016-05-19 10:47 by 猎手家园, 22161 阅读, 0 推荐, 收藏, 编辑
摘要:1、数据的中心化 所谓数据的中心化是指数据集中的各项数据减去数据集的均值。 例如有数据集1, 2, 3, 6, 3,其均值为3 那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2、数据的标准化 所谓数据的标准化是指中心化之后的数据在除以数据集的标准差,即数 阅读全文
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 35 下一页