2013 年 4月 1 日随笔档案 - 盖文

2013年4月1日

摘要：本文主要内容包括： (1) 介绍神经网络基本原理，(2) AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里简要介绍一下Iris数据集：有一批Iris花，已知这批Iris花可分为3个品种，现需要对其进行分类。不同品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度会有差异。我们现有一批已知品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度的阅读全文

posted @ 2013-04-01 19:23 盖文阅读(245) 评论(0) 推荐(0) 编辑

几道智力趣题

摘要： 1. 有两根不均匀分布的香，香烧完的时间是一个小时，你能用什么方法来确定一段15分钟的时间？2. 有两位盲人，他们都各自买了两对黑袜和两对白袜，八对袜子的布质、大小完全相同，而每对袜子都有一张商标纸连着。两位盲人不小心将八对袜子混在一起。他们每人怎样才能取回黑袜和白袜各两对呢？3. 有一辆火车以每小时150公里的速度从北京开往广州，另一辆火车以每小时200公里的速度从广州开往北京。北京到广州铁路距离假设是3000公里。如果有一只神兽，以300公里每小时的速度和两辆火车同时启动，从北京出发，沿着铁路飞奔，碰到另一辆车后掉头，依次在两辆火车间来回飞奔，直到两辆火车相遇，请问，这只神兽共跑了多长距离阅读全文

posted @ 2013-04-01 19:13 盖文阅读(519) 评论(0) 推荐(0) 编辑

机器学习中的相似性度量

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1.欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源自阅读全文

posted @ 2013-04-01 19:11 盖文阅读(144) 评论(0) 推荐(0) 编辑

特征选择常用算法综述

摘要： 1 综述(1)什么是特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )，是指从全部特征中选取一个特征子集，使构造出来的模型更好。(2)为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：特征个数越多，分析特征、训练模型所需的时间就越长。特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。特征选择能剔除不相关(irrelevant)或亢余(redun 阅读全文

posted @ 2013-04-01 19:10 盖文阅读(148) 评论(0) 推荐(0) 编辑

那些优雅的数据结构: BloomFilter——大规模数据处理利器

摘要： BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一.实例为了说明Bloom Filter存在的重要意义，举一个实例：假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就会有如下几种方案： 1. 将访问过的URL保存到数据库。 2. 用Hash... 阅读全文

posted @ 2013-04-01 19:05 盖文阅读(126) 评论(0) 推荐(0) 编辑

二进制与三进制的那些趣题

摘要： 1. 小明是个卖苹果的，小红一次在小明那买N（N<1024）个苹果。小明每次都要数N个苹果给小红，唉，太麻烦了。于是小明想出了一种方法：他把苹果分在10个袋子中，则无论小红来买多少个苹果，则他都可以整袋整袋的拿给小红。问怎样分配苹果到各个袋子？2. 有16种溶液，其中有且只有一种是有毒的，这种有毒的溶液与另一种试剂A混合会变色，而其他无毒溶液与A混合不会变色。已知一次实验需要1小时，由于一次混合反应需要使用1个试管，问最少使用多少个试管可以在1小时内识别出有毒溶液？3. 27个小球。其中一个比其他小球都要重一点。给你一个天平，最多称3次，找出这个特殊的小球。4. 有12个颜色大小一模一样阅读全文

posted @ 2013-04-01 19:01 盖文阅读(359) 评论(0) 推荐(0) 编辑

遗传算法入门

摘要：遗传算法 ( GA , Genetic Algorithm ) ，也称进化算法。遗传算法是受达尔文的进化论的启发，借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识作为遗传算法生物背景的介绍，下面内容了解即可：种群(Population)：生物的进化以群体的形式进行，这样的一个群体称为种群。个体：组成种群的单个生物。基因( Gene )：一个遗传因子。染色体( Chromosome )：包含一组的基因。生存竞争，适者生存：对环境适应度高的、牛B的个体参与繁殖的机会比较多，后代就会越来越多。适应度低的个体参与繁... 阅读全文

posted @ 2013-04-01 16:28 盖文阅读(163) 评论(0) 推荐(0) 编辑

模拟退火算法

摘要：一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索到全局最优解。如图1所示：假设C点为当前解，爬山算法搜索到A点这个局部最优解就会停止搜索，因为在A点无论向那个方向小幅度移动都不能得到更优的解。图1二. 模拟退火(SA,Simulated Annealing)思想爬山法是完完全全的贪心法，每次都鼠目寸光的选择一个当前最优解，因此只能搜索到局部的最优值。模拟退火其实也是一种贪心算法阅读全文

posted @ 2013-04-01 16:18 盖文阅读(145) 评论(0) 推荐(0) 编辑

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

摘要：版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com前言：上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简阅读全文

posted @ 2013-04-01 15:29 盖文阅读(88) 评论(0) 推荐(0) 编辑

机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)

摘要：版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com前言：第二篇的文章中谈到，和部门老大一宁出去outing的时候，他给了我相当多的机器学习的建议，里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到，如果学习分类算法，最好从线性的入手，线性分类器最简单的就是LDA，它可以看做是简化版的SVM，如果想理解SVM这种分类器，那理解LDA就是很有必要的了。谈到LDA，就不得不谈谈PCA，PCA是一个和LDA非常相关的算法，从推导、阅读全文

posted @ 2013-04-01 13:17 盖文阅读(121) 评论(0) 推荐(0) 编辑

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

摘要：版权声明：本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用，但请注明出处，如果有问题，请联系wheeleast@gmail.com前言：本来上一章的结尾提到，准备写写线性分类的问题，文章都已经写得差不多了，但是突然听说最近Team准备做一套分布式的分类器，可能会使用Random Forest来做，下了几篇论文看了看，简单的random forest还比较容易弄懂，复杂一点的还会与boosting等算法结合（参见iccv09），对于boosting也不甚了解，所以临时抱佛脚的看了看。说起boosting，强哥之阅读全文

posted @ 2013-04-01 13:06 盖文阅读(119) 评论(0) 推荐(0) 编辑

机器学习中的数学(2)-线性回归，偏差、方差权衡

摘要：版权声明：本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。如果有问题，请联系作者 wheeleast@gmail.com前言：距离上次发文章，也快有半个月的时间了，这半个月的时间里又在学习机器学习的道路上摸索着前进，积累了一点心得，以后会慢慢的写写这些心得。写文章是促进自己对知识认识的一个好方法，看书的时候往往不是非常细，所以有些公式、知识点什么的就一带而过，里面的一些具体意义就不容易理解了。而写文章，特别是写科普性的文章，需要对里面的具体意义弄明白，甚至还要能阅读全文

posted @ 2013-04-01 02:36 盖文阅读(92) 评论(0) 推荐(0) 编辑

贝叶斯、概率分布与机器学习

摘要：一. 简单的说贝叶斯定理：贝叶斯定理用数学的方法来解释生活中大家都知道的常识形式最简单的定理往往是最好的定理，比如说中心极限定理，这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法，最常见的就是贝叶斯定理。贝叶斯定理的发现过程我没有找到相应的资料，不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的，而且我相信贝叶斯发现这个定理的时候，还不知道它居然有这么大的威力呢。下面我用一个小例子来推出贝叶斯定理：已知：有N个苹果，和M个梨子，苹果为黄色的概率为20%，梨子为黄色的概率为80%，问，假如我在这堆水果中观察到了一个黄色的阅读全文

posted @ 2013-04-01 02:31 盖文阅读(207) 评论(0) 推荐(0) 编辑

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

摘要：版权声明：本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。前言: 上次写过一篇关于贝叶斯概率论的数学，最近时间比较紧，coding的任务比较重，不过还是抽空看了一些机器学习的书和视频，其中很推荐两个：一个是stanford的machine learning公开课，在verycd可下载，可惜没有翻译。不过还是可以看。另外一个是prml-pattern recognition and machine learning, Bishop的一部反响不错的书，而且是2008年阅读全文

posted @ 2013-04-01 01:50 盖文阅读(114) 评论(0) 推荐(0) 编辑

盖文

公告