随笔分类 - Machine Learning
摘要:问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢? 《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征
阅读全文
摘要:听说这是一篇论文 不过我没详细看。 一、概述 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变
阅读全文
摘要:项目需要,读出识别的车牌,对着图片看看是否识别正确。 有了0到9和A到Z,32个省份的音频,但是如何用matlab读出来,老版本有wavread直接读出,然后waveplay读入的即可。但是现在的是audioplayer了,对应的audiorecorder是录音用的,他是waveread的前身,然而
阅读全文
摘要:一周前和实验室师弟一起探讨的,在我的影响下他开始去坐毕设了...啧啧;现在等我同学过来找我,把那次的讨论内容回忆一下。 写一写个人理解,语句比较混乱,只一个入门,我并没有深入研究过。 这是一个启发式搜索算法。 以解决TSP问题为例,假设ABCDE五个城市,各个城市间距离的无向图。 1.假设以A开头,
阅读全文
摘要:第一次接触是在朴素贝叶斯分类里,是为了防止中间的概率为0,那么最终的概率就为0,分子加1,分母加k。 我想的是改进杰卡德系数,改进的初衷来源于这样一个想法,想用杰卡德系数来衡量项目属性相似性,不过假设有200个属性,如果a和b共同有2个,而且只有两个,c、d共同有20个而且只有20个,那么他们的杰卡
阅读全文
摘要:一、随机游走简介 随机游走(Random Walk)又称随机游动或随机漫步。在我们生活中处处都存在着与Random Walk有关的自然现象,例如气体分子的运动,滴入水中的墨水,气味的扩散等(如图1.4)。Random Walk是扩散过程的基础,因此它被广泛地用于对物理和化学等扩散现象的模拟上。 此外
阅读全文
摘要:Steffen Rendle于2010年提出Factorization Machines(下面简称FM),并发布开源工具libFM。 一、与其他模型的对比 与SVM相比,FM对特征之间的依赖关系用factorized parameters来表示。对于输入数据是非常稀疏(比如自动推荐系统),FM搞的定
阅读全文
摘要:早上再看一个APP推荐的文章,发现的。 (1)初识遗传算法 遗传算法,模拟达尔文进化论的自然选择和遗传学机理的生物进化过程的计算模型,一种选择不断选择优良个体的算法。谈到遗传,想想自然界动物遗传是怎么来的,自然主要过程包括染色体的选择,交叉,变异(不明白这个的可以去看看生物学),这些操作后,保证了以
阅读全文
摘要:所谓径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。 通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数 , 可记作 k(||x-xc||), 其作用往往是局部的 , 即当x远离xc时函数取值很小。 最常用的径向基函数是高斯核函数
阅读全文
摘要:网上讲高斯过程回归的文章很少,且往往从高斯过程讲起,我比较不以为然:高斯过程回归(GPR), 终究是个离散的事情,用连续的高斯过程( GP) 来阐述,简直是杀鸡用牛刀。所以我们这次直接从离散的问题搞起,然后把高斯过程逆推出来。 这篇博客有两个彩蛋,一个是揭示了高斯过程回归和Ridge回归的联系,另一
阅读全文
摘要:一、概念引入 很多事情是具有不确定性的。人们往往希望从不确定的东西里尽可能多的得到确定的知识、信息。为了达到这一目的,人们创建了概率理论来描述事物的不确定性。在这一基础上,人们希望能够通过已经知道的知识来推测出未知的事情,无论是现在、过去、还是将来。在这一过程中,模型往往是必须的,什么样的模型才是相
阅读全文
摘要:第一节、神经网络基本原理 1. 人工神经元( Artificial Neuron )模型 人工神经元是神经网络的基本元素,其原理可以用下图表示: 图1. 人工神经元模型 图中x1~xn是从其他神经元传来的输入信号,wij表示表示从神经元j到神经元i的连接权值,θ表示一个阈值 ( threshold
阅读全文
摘要:如果一个功能的实现是复杂的(complex)、难懂的(convoluted)、臃肿的(bloated),那么即使它能够运行,也是实现得不对。 这段话是一段随记,个人认为可以用来感性解释奥姆卡剃刀原理。
阅读全文
摘要:一、引言 如图认为x代表一类文档,o代表一类文档,方框代表一类文档,完美的聚类显然是应该把各种不同的图形放入一类,事实上我们很难找到完美的聚类方法,各种方法在实际中难免有偏差,所以我们才需要对聚类算法进行评价看我们采用的方法是不是好的算法。二、评价准则 2.1 purity 1)purity方...
阅读全文
摘要:一、监督学习简介 监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约...
阅读全文
摘要:k均值聚类:---------一种硬聚类算法,隶属度只有两个取值0或1,提出的基本根据是“类内误差平方和最小化”准则; 模糊的c均值聚类算法:-------- 一种模糊聚类算法,是k均值聚类算法的推广形式,隶属度取值为[0 1]区间内的任何一个数,提出的基本根据是“类内加权误差平方和最小化...
阅读全文
摘要:个人理解,根据大数定理残差服从高斯分布,而高斯分布的密度函数里exp的指数是二次方,然后最大似然估计,所以就是求误差平方和。
阅读全文
摘要:如果需要代做算法,可以联系我...博客右侧有联系方式。 一、相关概念 1.梯度下降 由于Z= X*theta - y是列向量,所以Z'*Z就是平方和连加,就是2范数;如果Z是矩阵呢,那么Z'*Z的对角线就是Z矩阵每列的2范数。 2.正规方程(Normal Equation) θ = (XTX)-1X
阅读全文