随笔分类 -  数据挖掘&机器学习

摘要:Computational advertising - the central challenge :Find the "best match" between a given user in a given context and a suitable advertisement.计算广告包含多个学科的知识,算是交叉学科:1、信息检索2、大规模的搜索与文本分析3、统计建模4、机器学习5、微观经济学6、博弈论等7、分类问题 Classification8、优化问题9、推荐系统。。。。。。教程:Stanford的:http://www.stanford.edu/class/m 阅读全文
posted @ 2013-06-25 22:47 糖拌咸鱼 阅读(696) 评论(0) 推荐(0)
摘要:理论上的东西,就不写了,也写不出什么有价值的东西,资料太多了。后文很多关于原理的讲述都给出了其他文章的引用。分享一个比较简单易懂的贝叶斯决策理论与统计判别方法。数据集:Dataset1.txt328 个同学的身高、体重、性别数据(78 个女生、250 个男生)Dataset2.txt124 个同学的数据(40 女、84 男)Dataset3.txt90 个同学的数据(16 女,74 男)问题描述: 以dataset1为训练数据库,假设身高与体重满足高斯分布,进行高斯分布的参数估计,并进行基于最小错误率的贝叶斯分类,分别考虑男女的先验概率,0.5-0.5;0.6-0.4;0.7-0.3,0.8- 阅读全文
posted @ 2013-05-06 23:24 糖拌咸鱼 阅读(7844) 评论(0) 推荐(0)
摘要:聚类是机器学习、数据挖掘相关的一类很常见的问题。关于聚类算法的介绍这里就不多写了,因为无论是教科书还是网络上都有太多的资料了。这里,用一个《Programming Collective Intelligence》中的聚类例子,写几个经典聚类算法的实现,分别是hierachiclaCluster、kmeans、kmedoids。 另外,最近一直在看数据挖掘、自然语言处理相关的东西,通过看资料发现有些东西很好理解,但是长时间不用的话,过一段时间就忘记得差不多了。其实换个角度想,也是自己对这些东西理解得不深刻。我觉得踏踏实实的实现这些算法是必要的,因为在实现过程中,我们可以发现哪些地方是算法的核心. 阅读全文
posted @ 2013-04-10 20:08 糖拌咸鱼 阅读(18609) 评论(3) 推荐(0)
摘要:机器学习初学者,超级小白,不对的地方尽请批评指正。欢迎一起探讨。 K-nearest Neighbors 学习方法是基于实例的,可用于逼近实值或离散目标函数,概念简明。对于基于实例的算法,学习过程只是简单地存储已知的训练数据,当遇到新的查询实例时,一系列相似的实例被从存储器中取出,并用来分类新的查询实例。因此,基于实例的算法的最大不足也就在于分类新实例的开销特别大。 ... 阅读全文
posted @ 2012-11-06 16:27 糖拌咸鱼 阅读(4972) 评论(0) 推荐(0)
摘要:自从读研以来,给我印象最深的是数学的重要性。本科阶段,一直很疑惑我们学习那些高数、概率统计、线性代数有什么用。有些人甚至认为那些课程都是在浪费时间,说是工作之后根本用不上。的确,在我去企业实习的过程中也很少能够接触到大学学习的数学知识。然而,进入研究生阶段后,陆陆续续读了一些paper,上了一些诸如机器学习、信息检索等课程,这些课程里面涉及大量的数学内容,经过一段时间的学习之后,我... 阅读全文
posted @ 2012-11-06 13:45 糖拌咸鱼 阅读(5717) 评论(1) 推荐(0)