03 2017 档案

摘要:防止过拟合的处理方法 过拟合 我们都知道,在进行数据挖掘或者机器学习模 型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立 阅读全文
posted @ 2017-03-28 22:27 静悟生慧 阅读(551) 评论(0) 推荐(0) 编辑
摘要:1 梯度法 就是直接对目标函数进行计算,然后判断其是否凸。具体地,就是计算目标函数的一阶导数和二阶导数。然后作出判断。 凸函数的一阶充要条件 等号右边是对函数在x点的一阶近似。这个条件的意义是,对于函数在定义域的任意取值,函数的值都大于或者等于对函数在这点的一阶近似。用图来说明就是: 通过图可以很清 阅读全文
posted @ 2017-03-28 22:20 静悟生慧 阅读(10890) 评论(1) 推荐(1) 编辑
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 阅读全文
posted @ 2017-03-28 18:55 静悟生慧 阅读(180) 评论(0) 推荐(0) 编辑
摘要:EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。 下面主要介绍EM的整个推导过程。 1. Je 阅读全文
posted @ 2017-03-10 11:37 静悟生慧 阅读(429) 评论(0) 推荐(0) 编辑
摘要:贝叶斯分类的基础——贝叶斯定理 贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。 这个定理解决了现实生活里经常遇到的问题:已知某条件概率(概率密度函数),如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条 阅读全文
posted @ 2017-03-09 14:56 静悟生慧 阅读(255) 评论(0) 推荐(0) 编辑
摘要:简介: scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包。採用Python语言编写。主要涵盖分类、 回归和聚类等算法,比如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档 都非常不错,对于机器学习开发人员来 阅读全文
posted @ 2017-03-08 21:58 静悟生慧 阅读(622) 评论(0) 推荐(0) 编辑
摘要:假设有N个待聚类的样本,对于层次聚类来说,步骤: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度; 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个); 3、重新计算新生成的这个类与各个旧类之间的相似度; 4、重复2和3直到所有样本点都归 阅读全文
posted @ 2017-03-06 20:10 静悟生慧 阅读(1492) 评论(0) 推荐(0) 编辑
摘要:3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一 聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 3.3 算法思想: 以空间中k个点为中心 阅读全文
posted @ 2017-03-06 16:56 静悟生慧 阅读(229) 评论(0) 推荐(0) 编辑
摘要:1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning) 3. 算法详述 3.1 步骤: 为了判断未知实例的类别, 阅读全文
posted @ 2017-03-06 14:56 静悟生慧 阅读(600) 评论(0) 推荐(0) 编辑
摘要:SVM 应用实例(人脸识别): from __future__ import print_function from time import time import logging import matplotlib.pyplot as plt from sklearn.cross_validati 阅读全文
posted @ 2017-03-06 13:09 静悟生慧 阅读(9490) 评论(1) 推荐(1) 编辑
摘要:1. 一个简单的SVM实例: 2. 稍微复杂一点的线性可分SVM 结果如下: Missing parentheses in call to 'print'——python语法错误 这个消息的意思是你正在试图用python3.x来运行一个只用于python2.x版本的python脚本。 print"H 阅读全文
posted @ 2017-03-06 10:45 静悟生慧 阅读(919) 评论(0) 推荐(0) 编辑
摘要:1. scikit-learn简单介绍 scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包。採用Python语言编写。主要涵盖分类、 回归和聚类等算法,比如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档 都 阅读全文
posted @ 2017-03-06 10:14 静悟生慧 阅读(327) 评论(0) 推荐(0) 编辑
摘要:1. 背景: 1.1 最早是由 Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出,并在1995年发表 1.3 深度学习(2012) 阅读全文
posted @ 2017-03-04 14:58 静悟生慧 阅读(477) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示