摘要: KNN--k nearest neighbor algorithm应用领域:KNN方法主要用于模式识别,是机器学习中最简单的一种学习方法。思想:一个数据归为哪类,由最近的K个邻居投票,把它归为票数最多的类。这K个邻居取自已知数据。要考虑的问题:选择那种距离--欧式距离,海明距离... 如何选择K值? 如何克服噪声的影响?海明距离 Hamming Distance两个相等长度的字符串,挨个比较每个字符,相同为0不相同为1,那么最后1的个数就是海明距离。交叉验证 cross validation这篇文章讲的比较通俗易懂 :http://www.cnblogs.c... 阅读全文
posted @ 2012-02-26 19:21 HOLD 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 一,问题描述过三关游戏,也叫井字棋,两个游戏者,一个画圈一个画叉,最先横竖斜连成一条线的为赢。现在的问题是,已知900个棋局,如何运用机器学习的方法让计算机自动判定一个给定的棋局为赢还是为输。棋局有9格子,所以每个棋盘可以有个9维的向量表示,1表示x,-1表示圈,0表示空格,每个棋局有两种可能的状态,赢或是输,可以用1表示赢,-1表示输。游戏的数据可以在这个网站得到:http://archive.ics.uci.edu/ml/。可以用其中的50%用于训练,其余50%用于测试。解决的方法很多,先说SVM方法,因为有个很好用的工具LIBSVM。二,SVMSVM--支持向量机,用于解决分类问题。在解 阅读全文
posted @ 2012-02-26 19:20 HOLD 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 1,Euclidean distance点p和点q的欧几米德距离就是线段pq的长度。假设p的坐标为p=(p1,p1....pn) q的坐标为q=(q1,q2...qn)那么p q间的距离:也可以用向量点积的形式表示为:2,Pearson correlation coefficient皮尔森相关系数就是概率论里的相关系数。3,Tanimoto similarity这是是看集体智慧编程的时候看到的,在第二章练习题中问何时Tanimoto similarity metric能够代替欧式距离和pearson系数?Tanimoto的定义[1]:if samplesXandYare bitmaps,is 阅读全文
posted @ 2012-02-26 19:19 HOLD 阅读(510) 评论(0) 推荐(0) 编辑