摘要:
多元正态分布 正态分布大家都非常熟悉了,多元正态分布就是多维数据的正态分布,其概率密度函数为 上式为 x 服从 k 元正态分布,x 为 k 维向量;|Σ| 代表协方差矩阵的行列式 二维正态分布概率密度函数为钟形曲面,等高线是椭圆线族,并且二维正态分布的两个边缘分布都是一维正态分布,如图 np.ran 阅读全文
摘要:
讲到 EM 算法就不得不提极大似然估计,我之前讲过,请参考我的博客 下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币 还是上图中抛硬币的例子,假设最后结果正面记为1,反面记为0,抛10次,结果为 1101001011; 下面我用数据公式解释下这个例子和 EM 算法; 阅读全文
摘要:
本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl 阅读全文
摘要:
DML,Hive Data Manipulation Language,数据操作语言; 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等; Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] I 阅读全文