数据挖掘&机器学习 - 随笔分类 - 糖拌咸鱼

计算广告的相关学习资源

摘要：Computational advertising - the central challenge :Find the "best match" between a given user in a given context and a suitable advertisement.计算广告包含多个学科的知识，算是交叉学科:1、信息检索2、大规模的搜索与文本分析3、统计建模4、机器学习5、微观经济学6、博弈论等7、分类问题 Classification8、优化问题9、推荐系统。。。。。。教程：Stanford的：http://www.stanford.edu/class/m 阅读全文

posted @ 2013-06-25 22:47 糖拌咸鱼阅读(696) 评论(0) 推荐(0)

基于最小错误率的贝叶斯决策

摘要：理论上的东西，就不写了，也写不出什么有价值的东西，资料太多了。后文很多关于原理的讲述都给出了其他文章的引用。分享一个比较简单易懂的贝叶斯决策理论与统计判别方法。数据集：Dataset1.txt328 个同学的身高、体重、性别数据（78 个女生、250 个男生）Dataset2.txt124 个同学的数据（40 女、84 男）Dataset3.txt90 个同学的数据（16 女，74 男）问题描述: 以dataset1为训练数据库，假设身高与体重满足高斯分布，进行高斯分布的参数估计，并进行基于最小错误率的贝叶斯分类，分别考虑男女的先验概率，0.5-0.5；0.6-0.4；0.7-0.3，0.8- 阅读全文

posted @ 2013-05-06 23:24 糖拌咸鱼阅读(7844) 评论(0) 推荐(0)

三种常见的聚类算法的python实现 kmeans、Hierarchical clustering、kmedoids

摘要：聚类是机器学习、数据挖掘相关的一类很常见的问题。关于聚类算法的介绍这里就不多写了，因为无论是教科书还是网络上都有太多的资料了。这里，用一个《Programming Collective Intelligence》中的聚类例子，写几个经典聚类算法的实现，分别是hierachiclaCluster、kmeans、kmedoids。另外，最近一直在看数据挖掘、自然语言处理相关的东西，通过看资料发现有些东西很好理解，但是长时间不用的话，过一段时间就忘记得差不多了。其实换个角度想，也是自己对这些东西理解得不深刻。我觉得踏踏实实的实现这些算法是必要的，因为在实现过程中，我们可以发现哪些地方是算法的核心. 阅读全文

posted @ 2013-04-10 20:08 糖拌咸鱼阅读(18609) 评论(3) 推荐(0)

K-nearest Neighbors 算法

摘要：机器学习初学者，超级小白，不对的地方尽请批评指正。欢迎一起探讨。 K-nearest Neighbors 学习方法是基于实例的，可用于逼近实值或离散目标函数，概念简明。对于基于实例的算法，学习过程只是简单地存储已知的训练数据，当遇到新的查询实例时，一系列相似的实例被从存储器中取出，并用来分类新的查询实例。因此，基于实例的算法的最大不足也就在于分类新实例的开销特别大。 ... 阅读全文

posted @ 2012-11-06 16:27 糖拌咸鱼阅读(4972) 评论(0) 推荐(0)

开始机器学习

摘要：自从读研以来，给我印象最深的是数学的重要性。本科阶段，一直很疑惑我们学习那些高数、概率统计、线性代数有什么用。有些人甚至认为那些课程都是在浪费时间，说是工作之后根本用不上。的确，在我去企业实习的过程中也很少能够接触到大学学习的数学知识。然而，进入研究生阶段后，陆陆续续读了一些paper，上了一些诸如机器学习、信息检索等课程，这些课程里面涉及大量的数学内容，经过一段时间的学习之后，我... 阅读全文

posted @ 2012-11-06 13:45 糖拌咸鱼阅读(5717) 评论(1) 推荐(0)

随笔分类 - 数据挖掘&机器学习

公告