Fork me on GitHub

随笔分类 -  【34】ML/PR

摘要:在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧几里得距离(Euclidean distance)‍相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。优点:简单,应用广泛(如果也算一个优点的话)缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。2.马氏距离 阅读全文
posted @ 2011-07-19 13:32 SkySeraph 阅读(2509) 评论(0) 推荐(0) 编辑
摘要:国外人工智能界牛人主页http://people.cs.uchicago.edu/~niyogi/http://www.cs.uchicago.edu/people/http://pages.cs.wisc.edu/~jerryzhu/http://www.kyb.tuebingen.mpg.de/~chapellehttp://people.cs.uchicago.edu/~xiaofei/http://www.cs.uiuc.edu/homes/dengcai2/http://www.kyb.mpg.de/~bshttp://research.microsoft.com/~denzho/h 阅读全文
posted @ 2011-03-10 15:55 SkySeraph 阅读(2238) 评论(0) 推荐(0) 编辑
摘要:模式识别技术漫谈(1) ------引言 在人工智能技术(Artificial Intelligence)领域中,模式识别(Pattern Recognition)技术也许是最具有挑战性的一门技术了,模式识别有时又被称为分类技术,因为模式识别说到底就是对数据进行分类。说到识别,最为常用的便是模仿人的视觉的图像识别(当然还有语音识别),也许你会想当然地认为那还不简单,觉得我们用我们的眼睛可以轻而易举地识别出各种事物,但是当你想用计算机中的程序来实现它时,于是你便会觉得很沮丧,甚至于有无从下手的感觉,至此你再也不会觉得电脑有多聪明,你会觉得电脑是多么的低能。是的,现在的电脑智能,即人工智能还远不如 阅读全文
posted @ 2011-02-24 14:24 SkySeraph 阅读(3334) 评论(2) 推荐(1) 编辑
摘要:以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statement。我通过浏览各开源工具网站,对其licence agreement进行了一下了解,在这里简单贴上其遵循的licence,希望有用。如果实际商用或者其他用途,还须仔细到个网站查询或联系developers。由于版本的升级,相应的licence也会有一定的改动,需要注意。如果有错误,希望大家指出,谢谢。I. Information Retri (like BSD)1. Lemur/IndriThe Lemur Toolkit for Language Modeling and 阅读全文
posted @ 2011-01-18 13:50 SkySeraph 阅读(2132) 评论(0) 推荐(0) 编辑