导航

摘要: BloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道蜘蛛是否已经访问过呢?稍微想想,就会有如下几种方案: 1. 将访问过的URL保存到数据库。 2. 用Has... 阅读全文

posted @ 2011-01-02 19:08 苍梧 阅读(75237) 评论(30) 推荐(28) 编辑

摘要: 优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法 遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体:组成种群的单个生物。 基因 ( Gene ) :一个遗传因子。 染色体 ( Chromosome ) :包含一组的基因。 生存竞争,适者生存:... 阅读全文

posted @ 2010-12-23 13:12 苍梧 阅读(210938) 评论(42) 推荐(42) 编辑

摘要: 优化算法入门系列文章目录(更新中): 1.模拟退火算法 2.遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为在A点无论向那个方向小幅度移动都不能得到更优的解。图1二. 模拟退火(SA,Simulated Annealing)思想 爬山法是完完全全的贪心法,每次都鼠目寸光的... 阅读全文

posted @ 2010-12-20 17:01 苍梧 阅读(313540) 评论(98) 推荐(138) 编辑

2011年3月9日

摘要: 第1题 Alice和她的同学Bob通过网上聊天商量明天早晨谁去教室打扫卫生的事,Bob说:“我在桌上放了一枚硬币,你猜一下,是正面朝上还是反面朝上?如果猜对了,我去扫地。如果猜错了,嘿嘿…。” Alice显然不会同意,担心自己不论猜正面还是反面,Bob都说她错了。分析:看到这题,我的第一反应是葛优的“分歧终端机”。(╯▽╰) 最关键是要找到一种方法使得Alice给出她的猜测后Bob不能抵赖。一种参考答案如下:1. Bob与Alice商量选取一个哈希函数hash(),hash()的值域应该尽可能大。2. Bob选择一个大随机数x,计算hash(x);通过网络告诉Alice hash(x)的值3. 阅读全文

posted @ 2011-03-09 13:43 苍梧 阅读(7882) 评论(6) 推荐(4) 编辑

2011年3月8日

摘要: 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡德距离& 杰卡德相似系数10.相关系数& 相关距离11.信息熵1. 欧氏距离(EuclideanDistance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公 阅读全文

posted @ 2011-03-08 23:42 苍梧 阅读(122957) 评论(21) 推荐(28) 编辑

2011年3月7日

摘要: 本文主要内容包括: (1) 介绍神经网络基本原理,(2)AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里简要介绍一下Iris数据集:有一批Iris花,已知这批Iris花可分为3个品种,现需要对其进行分类。不同品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度会有差异。我们现有一批已知品种的Iris花的花萼长度、花萼宽度、花瓣长度、花瓣宽度的. 阅读全文

posted @ 2011-03-07 22:30 苍梧 阅读(248961) 评论(37) 推荐(62) 编辑

2011年1月18日

摘要: 摘要:看完本文,你将 (1)了解什么是MPEG-7 (2)理解MPEG-7中的一些基本概念(什么是D,DS,DDL)。一.MPEG-7简介(1) 什么是MPEG-7 MPEG-7的正式名称是“多媒体内容描述接口”(Multimedia Content Description Interface),是由运动图像专家组(MPEG, Moving Picture Experts Group)提出的一个用于描述多媒体内容的ISO/IEC标准。 简单而言,MPEG-7其实就是一个规定如何来描述多媒体内容的特征的标准。明确一点:MPEG-7跟MPEG-2、MPEG-4等除了名字有点像以外没有更多的相同点。 阅读全文

posted @ 2011-01-18 17:15 苍梧 阅读(8469) 评论(1) 推荐(3) 编辑

2011年1月2日

摘要: 1 综述(1)什么是特征选择特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ,或属性选择( AttributeSelection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。(2)为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:Ø 特征个数越多,分析特征、训练模型所需的时间就越长。Ø 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。特征选择能剔除不相关(irrel 阅读全文

posted @ 2011-01-02 14:40 苍梧 阅读(106056) 评论(13) 推荐(16) 编辑

2010年12月22日

摘要: 先来思考几个问题,并不难,各位大牛应能秒杀:1. 小明是个卖苹果的,小红一次在小明那买N(N<1024)个苹果。小明每次都要数N个苹果给小红,唉,太麻烦了。于是小明想出了一种方法:他把苹果分在10个袋子中,则无论小红来买多少个苹果,则他都可以整袋整袋的拿给小红。问怎样分配苹果到各个袋子?2. 有16种溶液,其中有且只有一种是有毒的,这种有毒的溶液与另一种试剂A混合会变色,而其他无毒溶液与A混合不会变色。已知一次实验需要1小时,由于一次混合反应需要使用1个试管,问最少使用多少个试管可以在1小时内识别出有毒溶液?3. 27个小球。其中一个比其他小球都要重一点。给你一个天平,最多称3次,找出这 阅读全文

posted @ 2010-12-22 12:43 苍梧 阅读(11504) 评论(4) 推荐(4) 编辑

2010年11月22日

摘要: 有一个12品脱(pint)的酒瓶,里面装满葡萄酒,另有8品脱和5品脱的瓶子各一个。问如何从中分出6品脱的酒出来?传说泊松年轻时成功解决了该问题,勾起了他对数学的兴趣而投身数学研究,因此该问题被称为泊松分酒问题。另外这个问题又被称为分油问题啦,分水问题啦等等。小学的时候在一本《十万个问什么——数学卷》中看到过这个问题,那本书直接给出了一个解答过程,又没说原理,看得我糊里糊涂。一 . 解答过程为了方便说明,将容量为12品脱,8品脱,5品脱瓶子分别称为大瓶子,中瓶子,小瓶子。按照下面2种规则中的如何一种可以解决这个问题:第一套规则:1. 大瓶子只能倒入中瓶子2. 中瓶子只能倒入小瓶子3. 小瓶子只能 阅读全文

posted @ 2010-11-22 18:20 苍梧 阅读(10578) 评论(7) 推荐(3) 编辑