摘要:
一、 朴素的串匹配算法 最简单的朴素匹配算法采用最直观可行的策略 从左到右逐个字符串匹配; 发现不匹配时,转去考虑目标里的下一个位置是否与模式串匹配; 示例: 在初始状态0:两个字符串的起始位置对齐,顺序比较,立即发现第一对字符不同。将模式串右移动一位得到位置1。顺序比较第一对字符相同,但第二对字符 阅读全文
摘要:
权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小,是常用的过拟合的常用手段L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项,其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如,对于线性回归损失函数: $\iota(w_1, 阅读全文
摘要:
隐含狄利克雷分布(Latent Dirichlet Allocation ,简称LDA) 贝叶斯模型贝叶斯模型主要涉及“先验分布”, “数据(似然)”和“后验分布”三块,在贝叶斯学派中: 先验分布 + 数据(似然)= 后验分布可以理解为通过在现先验分布的基础上更新后验分布 二项分布与Beta分布二项 阅读全文
摘要:
Lesk算法 lesk算法是一个基于词典的词义消歧方法,算法认为:一个词在词典中的词义解释与该词所在句子具有相似性 1. original lesk 通过比较词在词典中解释,得到交集,那么相似度即为交集单词的个数 eg: pine 和cone分别在字典中的解释如下 Pine : 1. kind of 阅读全文
摘要:
平均法:对弱分类器的结果进行加权平均,常应用于回归预测模型 投票法:一般应用于分类模型 学习法:通过另一个学习器来进行结合,把个体学习器称为初学习器,用于结合的学习器称为次级学习器或元xuexiqi(1)Stacking方法:先从初级数据集训练出初级学习器,然和“生成”一个新数据集用于训练次级学习器 阅读全文
摘要:
word2vec是google在2013年推出的NLP工具,特点是将所有的词向量化,这样词与词之间就可以定量地度量 它们之间的关系,挖掘之间的联系。 与n-gram模型相比,神经概率语言模型有什么优势呢? 词语之间的相似性可以通过词向量来体现比如:在某个语料库中 s1 = "A dog is run 阅读全文
摘要:
关键词抽取算法主要分为两类: 1. 有监督学习算法 将关键词抽取过程视为二分类问题, 先抽取出候选词,然后对于每一个候选词划定标签,要么关键词、要么不是关键词,然后训练关键词抽取分类器。当新来一篇文章时,抽取所有的候选词,然后利用训练好的分类器抽取候选词,对各个候选词进行分类,最终将标签为关键词的候 阅读全文
摘要:
一、高斯混合模型参数估计的EM算法 假设观测数据$y_1, y_2,...,y_N$由高斯混合模型生成 $$ P(y|\theta) = \sum^k_{k=1} \alpha_k\phi(y|\theta_k)$$ 其中, $\theta = (\alpha_1, \alpha_2,...,\al 阅读全文
摘要:
概率模型有时含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些简单方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法,极大后验概率估计法。 EM算法首先选取参 阅读全文
摘要:
提升方法通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 一. 提升方法的基本思路 大多数提升方法都是改变训练训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。 1. 在每一轮是如何改变训练数据的权值或概率分布的呢? 阅读全文