随笔分类 -  DataMining

摘要:Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 一、支持度 支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率 阅读全文
posted @ 2016-04-17 20:42 加拿大小哥哥 编辑
摘要:一、随机游走简介 随机游走(Random Walk)又称随机游动或随机漫步。在我们生活中处处都存在着与Random Walk有关的自然现象,例如气体分子的运动,滴入水中的墨水,气味的扩散等(如图1.4)。Random Walk是扩散过程的基础,因此它被广泛地用于对物理和化学等扩散现象的模拟上。 此外 阅读全文
posted @ 2016-03-10 19:23 加拿大小哥哥 编辑
摘要:Steffen Rendle于2010年提出Factorization Machines(下面简称FM),并发布开源工具libFM。 一、与其他模型的对比 与SVM相比,FM对特征之间的依赖关系用factorized parameters来表示。对于输入数据是非常稀疏(比如自动推荐系统),FM搞的定 阅读全文
posted @ 2016-03-08 20:15 加拿大小哥哥 编辑
摘要:我觉得主要抓住三点,一是划分成多少类,这个类别数k的指定;二是聚类过程中中心点的选择,开始时怎么选,迭代过程中又该怎么选;三是聚类终止的条件。现在比较流行的就是k均值,k中心点了,当然还有他们的一些变种。首先是这个k的指定问题,现在还没有好的方法。 奥姆卡剃刀原理:当两个假说具有完全相同的解释... 阅读全文
posted @ 2015-09-01 22:28 加拿大小哥哥 编辑
摘要:前两章的协同过滤和就内容的推荐都建立在“大量数据”的基础上,运用概率方法来进行计算和预测。不过,在现实生活中,有些物品,如:汽车、房屋、计算机,用户不会频繁的消费。如何在这种情况下对用户进行推荐? 这种case,在现实生活中很常见的就是在淘宝上面用general的query来搜索一些大宗物品,... 阅读全文
posted @ 2015-05-23 00:22 加拿大小哥哥 编辑
摘要:基于内容的推荐的基本推荐思路是:用户喜欢幻想小说,这本书是幻想小说,则用户有可能喜欢这本小说 两方面要求:(1)知道用户的喜好;(2)知道物品的属性 基于内容的推荐相比协同过滤方法(个人观点):协同过滤用到了大量用户的群体行为特征,两个特点,(1)要大量用户,(2)除了用户的行为之外,不需要... 阅读全文
posted @ 2015-05-19 23:19 加拿大小哥哥 编辑
摘要:协同过滤算法是推荐系统中最古老,也是最简单高效的推荐算法。简单说协同过滤就是根据以往的用户产生的数据分析,对用户的新行为进行匹配分析来给用户推荐用户最有可能感兴趣的内容。 协同过滤算法是为了解决长尾现象,也就是说推荐系统是为了解决长尾现象而诞生的。因为在之前在有限的空间(如:书店的书架、服装店... 阅读全文
posted @ 2015-05-15 15:06 加拿大小哥哥 编辑
摘要:第一部分是学习ID3时候积累的。一.以前写的基础知识 1.信息:是用来消除不确定性的度量,信息量的大小,由所消除的不确定性的大小来计量(香农)。 2.由于不确定性是由随机性引起的,所以用概率来描述和计量;熵entropy:源于热力学,是分子混乱程度的度量。 3.X(离散型随机变量)的熵H(... 阅读全文
posted @ 2015-05-14 23:06 加拿大小哥哥 编辑
摘要:我想站在大神肩膀上...貌似是计算所的一个小伙伴... 总结的很好,看得出来有一定的功底.... 不过对于自己看过了的东西,就不愿意再翻看第二遍了。恰好这本书和项亮那本很像,就直接看这本书了。顺便记记笔记,贴到这里,供更多人参考。一. 协同过滤的推荐 基本思想:用户在过去有相同的偏好,e.... 阅读全文
posted @ 2015-05-13 23:24 加拿大小哥哥 编辑
摘要:感谢敖山、薛霄老师把我引进了统计学和现代服务业的大门.......至少是长见识了。 查相似项检索时发现的。 中间一部分资料来自厦门大学数据库实验室,感谢大牛们的传道授业,爱你们。 查资料时发现很多计算机相关(比如分布式、数据库)的研究生都曾经是数学系的学生。 ppt是英文的,笔者做了简单... 阅读全文
posted @ 2015-05-13 16:35 加拿大小哥哥 编辑
摘要:一、问题由来 这个题目的由来是在《编程珠玑》里遇到的,故记录一下。还可以这么说,”如何从二进制文件中等概率取整数?”或者”在不知道文件总行数的情况下,如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。 这个问题的难点就在于你开始不知道有多... 阅读全文
posted @ 2015-01-15 17:26 加拿大小哥哥 编辑
摘要:看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下面就先看看大叔的风采。 一、布隆过滤器概念引入 (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制... 阅读全文
posted @ 2014-12-21 11:06 加拿大小哥哥 编辑
摘要:人生如戏!!!!一、理论准备 聚类算法,不是分类算法。分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类。聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。 K-Means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按... 阅读全文
posted @ 2014-10-27 21:29 加拿大小哥哥 编辑
摘要:偶然间在网上看到了一篇关于weka好的博文,就记录了下来…… weka下载地址为http://www.cs.waikato.ac.nz/ml/weka/downloading.html 读者有时候看到两个图片并列,其中一个是原文的,另一个是我实验时打开的。一.引入 数据挖掘、机器学习这些字眼,在一... 阅读全文
posted @ 2013-09-07 13:26 加拿大小哥哥 编辑
摘要:啊 阅读全文
posted @ 2013-06-24 10:42 加拿大小哥哥 编辑
摘要:http://blog.csdn.net/xceman1997/article/details/41791651 阅读全文
posted @ 2013-04-27 14:48 加拿大小哥哥 编辑

点击右上角即可分享
微信分享提示