// // // //
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 41 下一页

2019年11月20日

摘要: 多元正态分布 正态分布大家都非常熟悉了,多元正态分布就是多维数据的正态分布,其概率密度函数为 上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式 二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图 np.ran 阅读全文
posted @ 2019-11-20 16:27 努力的孔子 阅读(18186) 评论(0) 推荐(2) 编辑
 

2019年11月19日

摘要: 官方不建议使用 64 bit python,容易出各种问题 Unable to find vcvarsall.bat 凡是安装与操作系统底层相关的 python 扩展都会遇到这个问题,如 PIL,Pillow,gevent 等,当然你可以直接安装编译好的,此时可能无需解决这个问题,但是你只能使用阉割 阅读全文
posted @ 2019-11-19 09:34 努力的孔子 阅读(2129) 评论(0) 推荐(0) 编辑
 

2019年11月18日

摘要: 高斯混合模型 混合模型,顾名思义就是几个概率分布密度混合在一起,而高斯混合模型是最常见的混合模型; GMM,全称 Gaussian Mixture Model,中文名高斯混合模型,也就是由多个高斯分布混合起来的模型; 概率密度函数为 K 表示高斯分布的个数,αk 表示每个高斯分布的系数,αk>0,并 阅读全文
posted @ 2019-11-18 17:40 努力的孔子 阅读(620) 评论(0) 推荐(0) 编辑
 

2019年11月15日

摘要: KMeans 算法太过简单,不再赘述 本文尝试用 EM 算法解释 KMeans,而事实上 KMeans 算是 EM 的一个特例 EM 算法是包含隐变量的参数估计模型,那对应到 KMeans 上,隐变量是什么?参数又是什么? 参数就是描述一个模型,在 KMeans 中是聚类质心;隐变量是每个样本的类别 阅读全文
posted @ 2019-11-15 17:27 努力的孔子 阅读(316) 评论(0) 推荐(0) 编辑
 
摘要: 讲到 EM 算法就不得不提极大似然估计,我之前讲过,请参考我的博客 下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币 还是上图中抛硬币的例子,假设最后结果正面记为1,反面记为0,抛10次,结果为 1101001011; 下面我用数据公式解释下这个例子和 EM 算法; 阅读全文
posted @ 2019-11-15 15:58 努力的孔子 阅读(593) 评论(0) 推荐(0) 编辑
 

2019年11月11日

摘要: GDBT 可以解决分类和回归问题 回归问题 def __init__(self, loss='ls', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, 阅读全文
posted @ 2019-11-11 14:53 努力的孔子 阅读(429) 评论(0) 推荐(0) 编辑
 
摘要: 首先强调一下,这篇文章适合有很好的基础的人 梯度下降 这里不系统讲,只介绍相关的点,便于理解后文 先放一个很早以前写的 梯度下降 实现 logistic regression 的代码 def tiduxiajiang(): """梯度下降算法""" alpha=0.000001 # 学习率的确定方法 阅读全文
posted @ 2019-11-11 11:39 努力的孔子 阅读(579) 评论(0) 推荐(0) 编辑
 

2019年11月5日

摘要: 本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl 阅读全文
posted @ 2019-11-05 10:56 努力的孔子 阅读(1201) 评论(0) 推荐(0) 编辑
 

2019年11月4日

摘要: hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 hiveserver1,不过已经被淘汰,不多做解释,hiveserver1 的缺点是不支持并发,hi 阅读全文
posted @ 2019-11-04 16:39 努力的孔子 阅读(4422) 评论(1) 推荐(0) 编辑
 
摘要: DML,Hive Data Manipulation Language,数据操作语言; 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等; Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] I 阅读全文
posted @ 2019-11-04 11:15 努力的孔子 阅读(496) 评论(0) 推荐(0) 编辑
 
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 41 下一页