机器学习 - 随笔分类 - 苍梧

机器学习中的相似性度量

摘要：在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡德距离& 杰卡德相似系数10.相关系数& 相关距离11.信息熵1. 欧氏距离(EuclideanDistance) 欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公阅读全文

posted @ 2011-03-08 23:42 苍梧阅读(123022) 评论(21) 推荐(28) 编辑

神经网络编程入门

摘要：本文主要内容包括： (1) 介绍神经网络基本原理，(2)AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里简要介绍一下Iris数据集：有一批Iris花，已知这批Iris花可分为3个品种，现需要对其进行分类。不同品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度会有差异。我们现有一批已知品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度的. 阅读全文

posted @ 2011-03-07 22:30 苍梧阅读(249096) 评论(37) 推荐(62) 编辑

特征选择常用算法综述

摘要：1 综述(1)什么是特征选择特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ，或属性选择( AttributeSelection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。(2)为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：Ø 特征个数越多，分析特征、训练模型所需的时间就越长。Ø 特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。特征选择能剔除不相关(irrel 阅读全文

posted @ 2011-01-02 14:40 苍梧阅读(106096) 评论(13) 推荐(16) 编辑

遗传算法入门

摘要：优化算法入门系列文章目录（更新中）： 1. 模拟退火算法 2. 遗传算法遗传算法 ( GA , Genetic Algorithm ) ，也称进化算法。遗传算法是受达尔文的进化论的启发，借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识作为遗传算法生物背景的介绍，下面内容了解即可：种群(Population)：生物的进化以群体的形式进行，这样的一个群体称为种群。个体：组成种群的单个生物。基因 ( Gene ) ：一个遗传因子。染色体 ( Chromosome ) ：包含一组的基因。生存竞争，适者生存：... 阅读全文

posted @ 2010-12-23 13:12 苍梧阅读(211323) 评论(42) 推荐(42) 编辑

大白话解析模拟退火算法

摘要：优化算法入门系列文章目录（更新中）： 1.模拟退火算法 2.遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索到全局最优解。如图1所示：假设C点为当前解，爬山算法搜索到A点这个局部最优解就会停止搜索，因为在A点无论向那个方向小幅度移动都不能得到更优的解。图1二. 模拟退火(SA,Simulated Annealing)思想爬山法是完完全全的贪心法，每次都鼠目寸光的... 阅读全文

posted @ 2010-12-20 17:01 苍梧阅读(313780) 评论(98) 推荐(138) 编辑

导航

公告

随笔分类 - 机器学习

机器学习中的相似性度量

神经网络编程入门

特征选择常用算法综述

遗传算法入门

大白话解析模拟退火算法