随笔分类 -  机器学习

机器学习相关算法
摘要:命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图。它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的基础。 NER一直是NLP领域中的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年 阅读全文
posted @ 2017-10-17 20:25 陈泽泽 阅读(678) 评论(0) 推荐(0) 编辑
摘要:Long Short Term 网络—— 一般就叫做 LSTM ——是一种 RNN 特殊的类型,可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber (1997)提出,并在近期被Alex Graves进行了改良和推广。在很多问题,LSTM 都取得相当巨大的成功,并得到了 阅读全文
posted @ 2017-10-09 10:18 陈泽泽 阅读(713) 评论(0) 推荐(0) 编辑
摘要:1. 粗糙集属性约简算法仅仅选出属性重要度大的条件加入约减中,没有考虑约简中条件属性相互之间的冗余性,得到的约简往往不是都必要的,即含有冗余属性。 2. mRMR算法则除了考虑特征与类别之间的相关性,还考虑特征与特征之间的冗余度,约束特征与类别最大相关,特征与特征最小冗余。 3. 根据mRMR算法, 阅读全文
posted @ 2017-06-28 20:16 陈泽泽 阅读(1668) 评论(1) 推荐(0) 编辑
摘要:一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的 阅读全文
posted @ 2017-06-20 11:23 陈泽泽 阅读(5677) 评论(0) 推荐(0) 编辑
摘要:EM的算法流程: 初始化分布参数θ; 重复以下步骤直到收敛: E步骤:根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值: M步骤:将似然函数最大化以获得新的参数值: 这个不断的迭代,就可以得到使似然函数L(θ)最大化的参数θ了。那就得回答 阅读全文
posted @ 2017-06-19 22:40 陈泽泽 阅读(391) 评论(0) 推荐(0) 编辑
摘要:初始目的 将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类。由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定的好不好呢? 我们使用样本的极大似然估计来度量,这里就是x和y的联合分布P(x,y)了。如果找到的y 阅读全文
posted @ 2017-06-19 21:12 陈泽泽 阅读(2424) 评论(0) 推荐(0) 编辑
摘要:判别式模型(discriminative model) 产生式模型(generative model) 特点 寻找不同类别之间的最优分类面,反映的是异类数据之间的差异 对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度 区别(假定输入x, 类别标签y) 估计的是条件概率分布 阅读全文
posted @ 2017-06-19 10:38 陈泽泽 阅读(6494) 评论(0) 推荐(0) 编辑
摘要:证明:实对称阵属于不同特征值的的特征向量是正交的. 设Ap=mp,Aq=nq,其中A是实对称矩阵,m,n为其不同的特征值,p,q分别为其对应得特征向量. 则 p1(Aq)=p1(nq)=np1q (p1A)q=(p1A1)q=(AP)1q=(mp)1q=mp1q 因为 p1(Aq)= (p1A)q 阅读全文
posted @ 2017-06-16 10:41 陈泽泽 阅读(3055) 评论(0) 推荐(0) 编辑
摘要:一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为 阅读全文
posted @ 2017-06-16 09:19 陈泽泽 阅读(282) 评论(0) 推荐(0) 编辑
摘要:1. 问题 真实的训练数据总是存在各种各样的问题: 1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试 阅读全文
posted @ 2017-06-16 09:00 陈泽泽 阅读(629) 评论(0) 推荐(0) 编辑
摘要:第一种 第二种 阅读全文
posted @ 2017-06-15 20:26 陈泽泽 阅读(4382) 评论(3) 推荐(0) 编辑
摘要:介绍 RoughSets算法是一种比较新颖的算法,粗糙集理论对于数据的挖掘方面提供了一个新的概念和研究方法。本篇文章我不会去介绍令人厌烦的学术概念,就是简单的聊聊RoughSets算法的作用,直观上做一个了解。此算法的应用场景是,面对一个庞大的数据库系统,如何从里面分析出有效的信息,如果一datab 阅读全文
posted @ 2017-06-14 17:49 陈泽泽 阅读(4533) 评论(0) 推荐(0) 编辑
摘要:粗糙集理论是一种研究不精确,不确定性知识的数学工具。 粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式,它可以表现为四元有序组K=(U,A,V,P)。其中U为对象的全体,即论域;A是属性全体;V是属性的值域;P为一个信息函数,反映了对象x在K中的完全信息。 粗糙集的思想为: 一种类别对应一 阅读全文
posted @ 2017-06-13 10:02 陈泽泽 阅读(6780) 评论(0) 推荐(1) 编辑
摘要:随机森林是一个最近比较火的算法 它有很多的优点: 随机森林思想 用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看 阅读全文
posted @ 2017-06-13 09:43 陈泽泽 阅读(803) 评论(0) 推荐(0) 编辑
摘要:BP算法细节 参数说明:假设有n层。J表示代价函数,和上面的E是同样的意思,只不过用不同的字母写而已。 分析:要想知道第l层的第i个结点的残差,必须知道该节点所连接的下一层的各个结点的权值,以及这些结点的残差,幸亏第l+1层已经计算出来了残差,你只要把后面一层的每个结点j的残差乘以该结点与这一层的结 阅读全文
posted @ 2017-06-05 19:10 陈泽泽 阅读(301) 评论(0) 推荐(0) 编辑
摘要:BPN(Back Propagation Net) 反向传播神经网络是对非线性可微分函数进行权值训练的多层网络,是前向神经网络的一种。 BP网络主要用于: 1)函数逼近与预测分析:用输入矢量和相应的输出矢量训练一个网络,逼近一个函数或预测未知信息; 2)模式识别:用一个特定的输出矢量将它与输入矢量联 阅读全文
posted @ 2017-06-05 18:34 陈泽泽 阅读(1708) 评论(0) 推荐(0) 编辑
摘要:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容 阅读全文
posted @ 2017-06-04 20:55 陈泽泽 阅读(4105) 评论(0) 推荐(0) 编辑
摘要:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类。 KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属 阅读全文
posted @ 2017-06-04 15:14 陈泽泽 阅读(628) 评论(0) 推荐(0) 编辑
摘要:二分类问题Sigmod 在 logistic 回归中,我们的训练集由 个已标记的样本构成: ,其中输入特征。(我们对符号的约定如下:特征向量 的维度为 ,其中 对应截距项 。) 由于 logistic 回归是针对二分类问题的,因此类标记 。假设函数(hypothesis function) 如下: 阅读全文
posted @ 2017-06-04 14:43 陈泽泽 阅读(531) 评论(0) 推荐(0) 编辑
摘要:1. LDA是什么 线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。 基本思想是将高 阅读全文
posted @ 2017-06-04 09:12 陈泽泽 阅读(700) 评论(0) 推荐(0) 编辑