摘要:
奇异值分解(singular value decomposition,SVD)一种矩阵因子分解的方法,在主要成分分析和潜在语义分析都会用到这一重要的工具。 其即是将一个的实矩阵A,表示成三个实矩阵乘积形式, 其中U是m阶的正交矩阵,V是n阶的正交矩阵,而是由A矩阵的奇异值由降序排列成对角线组成的对角矩阵。 分解的几何解释是将任意一个n维向量,根据公式从右到左,先经过坐标系的旋转或反转变换,再... 阅读全文
摘要:
聚类是根据样本的相似度,将样本归并到一类别的方法。 聚类相似度的确定则需要根据样本的特性选择合适的相似度度量方法来计算。一般相似度的度量方法有距离度量,即将样本看作向量空间的集合,以样本在空间中的距离表示样本之间的相似度,而常见的距离度量有欧氏距离。 相似度的度量方法还有:相关系数,夹角余弦等等的方法。 在确定相似度的度量方法后,聚类的算法也有两种: 层次聚类(自下而上型): 层次聚类在初始时... 阅读全文
摘要:
条件随机场(conditional random field,CRF),常用于标注或分析序列资料,如自然语言文字或是生物序列。即给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。 图1-1 线性链条件随机场 设P(Y|X)为线性链条件随机场,则随机变量X在取值为x的条件下,随机变量Y取值为y的条件概率的形式如下, 是定义在边上的特征函数(转移函数),依赖于当前位置和前... 阅读全文
摘要:
EM(expectation maximization algorithm)用于含有隐变量的概率模型参数的极大似然估计。 例子: 有三枚A,B,C硬币。首先A为选择硬币,对其进行投掷,其投掷结果正则选择B硬币进行投掷,反为选择C硬币,然后根据选择的硬币再进行投掷,记录该硬币的投掷结果,正面为1,反面为0;重复上述过程。投掷实验过程如下, 图1-1 投掷A,B,C硬币实验 实验的记录结果... 阅读全文
摘要:
AdaBoost算法流程: 输入:训练数据集和弱学习方法; 输出:最终分类器; 初始化训练数据的权值分布(初始平均分配,D的下标和的第一个下标表示训练的轮次) 对于第m次训练, 使用具有权值分布的训练数据集学习,得到基本分类器 计算在训练数据集上分类误差率 计算的系数 更新训练数据集的权值 将上述得到的弱分类器进行线性组合 最... 阅读全文
摘要:
就分类问题的训练而言,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易。而提升方法即从若分类器算法的学习出发,反复学习,得到一系列的弱分类器,然后通过组合,构成一个强分类器。 当然,在这提升方法中,有两个问题需要解决: 如何在每一轮的训练中改变数据的权值或是概率分布; 如何将弱分类器组合成一个强分类器。 AdaBoost算法 提升算法中,最具有代表性的算法是AdaB... 阅读全文