随笔分类 - 统计学习方法
摘要:1. 简单例子 步骤 1.1 计算已知点和被求点的距离 1.2 按距离递增排序 1.3 求出距离最近的前k个点的类别最大值作为目标分类 语法解析 a. shape()得到矩阵的各个维度的长度 b. tile,举例 c. sortDistIndices = distance.argsort() 得到排
阅读全文
摘要:k近邻法(k nearest neighbor algorithm,k-NN)是机器学习中最基本的分类算法,在训练数据集中找到k个最近邻的实例,类别由这k个近邻中占最多的实例的类别来决定,当k=1时,即类别为最近邻的实例的类别。 如上图所示(引自wiki),当k=3时,此时红色的个数为2,则绿色的输
阅读全文
摘要:感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型。感知机由Rosenblatt于1957年提出的,是神经网络和支持向量机的基础。行文脉络感知机模型感知机学习策略感知机学习算法原始形式对偶形式 4. Github地址1. 感知机模型定..
阅读全文
摘要:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法基本方法总论朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后得到后验概率P(Y|X)。即:一)利用训练数据得到P(X|Y)和P(Y)的估计二)根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)三)根...
阅读全文
摘要:监督学习的任务就是学习一个模型,应用这个模型,对给定的输入预测相应的输出。这个模型一般为决策函数:Y=f(X) 或 条件概率分布:P(Y|X)。监督学习的学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别叫生成模型和判别模型。生成方法定义由数据学习联合概率分布P(X,Y), 然后由P(Y|X)=求出概率分布P(Y|X)。该方法表示了给定输入X产生输出Y的生成关系。典型模型朴素贝叶斯方法、隐马尔可夫模型特点生成方法可以还原出联合概率分P(X,Y),而判别方法不能;生成方法的学习收敛速度更快,当样本容量增
阅读全文
摘要:最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。贝叶斯定理是在250多年前发明的算法,在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一。贝叶斯定理描述贝叶斯定理是关于随机事件A和B的条件概率的一则定理。在贝叶斯定理中,每个名词都有约定俗成的名称:P(A)是A的先验概率。之所以称为"先验"是因为它不考虑任何B方面的因素。P(A|B)
阅读全文
摘要:阮一峰老师的博客写的相当详细了,非常佩服,在这里记录一下链接一):自动提取关键词url: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html笔记:分母+1目的是防止所有文档都不包含该词(未登录词)利用tf-idf方法:优点 是简单快速,结果比较符合实际情况。缺点 是这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。二):找出相似文章url: http://www.ruanyifeng.com/blog/2013/03/cosin
阅读全文