摘要:
一,本文将基于“独立重复试验 抛硬币”来解释贝叶斯理论中的先验概率、似然函数和后验概率的一些基础知识以及它们之间的关系。 本文是《A First Course of Machine Learning》的第三章的学习笔记,在使用贝叶斯方法构造模型并用它进行预测时,总体思路是:在已知的先验知识(先验概率 阅读全文
摘要:
在 使用最大似然法来求解线性模型(3)-求解似然函数 文章中,我们让 logL 对 w 求一阶偏导数,让偏导数等于0,解出 w,这个 w 就是使logL取最大值的w 那为什么令一阶偏导数等于0,求得的w就能够使 logL 取最大值呢? 在高等数学中,对于一元可导函数f(x)而言,一阶导数f′(x)= 阅读全文
摘要:
根据 使用最大似然法来求解线性模型(2)-为什么是最大化似然函数? 中提到,某个随机变量tn的 条件概率 服从均值为wT*xn,方差为σ2的正态分布。 现在假设有N个样本点,它们的联合概率密度为: 由于在给定了w和σ2的条件下,tn之间是相互独立的。即:在给定的 w,σ2的条件下,t1 t2 ... 阅读全文
摘要:
根据 使用最大似然法来求解线性模型(1),待求解的线性模型如下式: tn=wT*xn+ξn 第xn年的百米赛跑的时间tn,与两个参数有关:一个是w,另一个则是该年对应的一个误差值(noise) 在求解w和 ξ 之前,先观察一下误差值的特点: 因此,关于errors(noise)的假设如下: 更进一步 阅读全文
摘要:
在Coursera机器学习课程中,第一篇练习就是如何使用最小均方差(Least Square)来求解线性模型中的参数。本文从概率论的角度 最大化似然函数,来求解模型参数,得到线性模型。本文内容来源于:《A First Course of Machine Learning》中的第一章和第二章。 先来看 阅读全文
摘要:
使用Ganglia监控整个Hadoop集群,看到Ganglia采集的各种指标:CPU各个具体的指标含义解释如下: ①CPU(监测到的master主机上的CPU使用情况) 从图中看出,一共有五个关于CPU的指标。分别如下: ⓐ User User表示:CPU一共花了多少比例的时间运行在用户态空间或者说 阅读全文
摘要:
一,问题描述 Ganglia的各个组件安装情况(不是我装的,只知道这些信息): 集群一共有4台机器,分别是192.168.121.34-37。Gmetad、Gweb和httpd 安装在 192.168.121.34 上;Gmond安装在34,35,36,37机器上。 访问Ganglia-web主页: 阅读全文
摘要:
①打开注册表编辑器,开始-->运行-->regedit ②定位到:HKEY_CLASSSES_ROOT > * >Shell,在Shell 上右击,新建 > 项,输入: Open With gvim(使用vim打开) ③在 Open With gvim 右键 >新建 >字符串值,数值名称设置为:Ic 阅读全文
摘要:
在本练习中,先介绍了SVM的一些基本知识,再使用SVM(支持向量机 )实现一个垃圾邮件分类器。 在开始之前,先简单介绍一下SVM ①从逻辑回归的 cost function 到SVM 的 cost function 逻辑回归的假设函数如下: hθ(x)取值范围为[0,1],约定hθ(x)>=0.5, 阅读全文
摘要:
本文根据水库中蓄水标线(water level) 使用正则化的线性回归模型预 水流量(water flowing out of dam),然后 debug 学习算法 以及 讨论偏差和方差对 该线性回归模型的影响。 ①可视化数据集 本作业的数据集分成三部分: ⓐ训练集(training set),样本 阅读全文