随笔分类 - 数据挖掘
摘要:从标题就可以看到,这本书重点在于实践,所以本书的方法都是以能否在实际系统中得到广泛的应用作为选择的依据。我们重点讲的方法都是在实际系统中得到过检验,并初步证明有效的方法。当然,为了满足广大学术圈的同学的需要,我们也会有专门的一章讨论一些现在学术界研究热点问题和方法,但这个不是这本书的重点。推荐系统从1994年的GroupLens的文章开始,已经有了近20年的发展,其实在GroupLens之前,推荐系统的雏形就已经出现了。但推荐系统真正受到重视得益于两个公司。一个是亚马逊,该公司将个性化推荐视为他们的核心竞争力,并且将该技术深入的集成到他们所有的产品中,整个工业界,推荐系统的标杆就是亚马逊了。另
阅读全文
摘要:最近很多读者关注《推荐系统实践》一书,询问本书目前的写作进展和出版时间。自今日起,本书正式进入开放出版流程,作者会全程在本社区中互动,与大家分享写做过程中的点滴。技术背景推荐系统从1994年开始,经过Amazon,Netflix等著名公司的努力,已经充分证明了它的作用。最近,越来越多的国内公司开始关注推荐系统,在技术人员中有较高的关注度。经过20多年的发展,推荐系统的理论已经较为成熟,知识体系比较系统。国外也出版了很多推荐系统方面的书。但是目前国内没有推荐系统方面比较好的书。目前国内作者写的推荐系统方面的图书很少,仅有的几本质量也不高。国外出版,国内翻译的书,以《集体智慧编程》为代表,获得了很
阅读全文
摘要:填补计算机和人类智慧之间的鸿沟——数据智慧工程师目前关于使用数据提升各种系统性能的职位有很多,比如商业智能分析师,个性化推荐工程师等等。我认为可以统称为数据智慧工程师。因为他们的工作性质几乎相同:数据来源:采集的原始数据,比如服务器log,围脖言论,传感器记录,股票交易记录等;目标知识:获取有价值的知识——需要、易于理解、可靠。用途:使用这些知识,获得更大价值——(个性化推荐,卖出更多商品)、(正确股票交易,挣更多钱)、(规避危机)。难点:人类有智能:让数据有智能是目标。比如积累了数据就了解了社会发展趋势、用户兴趣。计算机无智能:他只知道运算,迭代收敛,条件判读,规则推理已经是其最高智慧了。如
阅读全文
摘要:题目:Friendship and Mobility: User Movement inLocation-Based Social Networks来源:SIGKDD-2011(数据挖掘顶级会议)作者单位:斯坦福大学(Eunjoon Cho,Seth A. Myers,Jure Leskovec)译者:雨梦:http://weibo.com/yumengkk,个人主页:www.upcom.tk原文:google 学术进行搜索摘要: 尽管人类的活动具有很高的自由度,但是仍旧受到地理空间和社会关系的限制。通过研究来自两个位置社交网络中用户的位置数据,我们试图为用户的活动建模,探索其固有的规律...
阅读全文
摘要:新兴研究领域介绍:图挖掘和多关系数据挖掘。一、什么是图挖掘?为什么进行图挖掘 1、图的用途越来越广,包括对互联网、社会化网络、生物、电路、图像的建模。 2、许多图搜索算法已经被开发出来了,并且广泛用在信息检索、计算机视觉等领域; 3、需要进一步开发高效的图挖掘算法,以便从更加复杂的结构化数据中挖掘出有效的知识。二、挖掘频繁子图 1、Apriori-based 方法:包括AGM,FSG和path-join算法; 2、Pattern growth graphy method;三、社会网络应用的连接分析(link analysis) 1、基于连接的对象分类(Link bas...
阅读全文
摘要:每次谈到数据挖掘都让人很兴奋,但是真正的应用有几个是数据挖掘算法支撑起来的呢:大家哈哈一笑,”除了尿布和啤酒“还有什么拿的出的例子吗。传统的统计学方法可以解决大多数知识发现问题。数据挖掘实际上是一组在人类高级智能和计算机低级智能间的抽象算法:分类(聚类,智能是基础)、关联(和专家系统的规则有区别吗)。个人认为数据挖掘的几个算法其本质类似于数据库领域的”SQL“语句。用几个基本的算子尽量组织成复杂的逻辑,解决现实的问题。说了半天,数据挖掘的发展不外乎两个方向:1、扩展到更多领域,用基本的方法解决新问题;2、优化算法(设计新的算法)更快的完成几个功能(包括解决大数据问题需要的方法)。 因此,...
阅读全文
摘要:Predict which users (or information sources) oneuser might follow in Tencent Weibo.数据挖掘竞赛主题一:预测围脖的潜在关注者(腾讯赞助)竞赛主页:http://www.kddcup2012.org/c/kddcup2012-track11、背景 近些年,在线社交网络发展的如火如荼,流行的站点有twitter,facebook等。在2010年4月发布以来,腾讯微博每天都有成千上万的人加入。腾讯微博作为中国最大的围脖系统之一,已经成为了人们发掘朋友共享爱好的平台。当前该平台已经拥有2亿用户,每天产生月四千万信息。这些
阅读全文
摘要:Kaggle is an innovative solution for statistical/analytics outsourcing. We are the leading platform for predictive modeling competitions. Companies, governments and researchers present datasets and problems – the world’s best data scientists then compete to produce the best solutions. At the end of
阅读全文
摘要:KDD Cup 2012:今年的数据挖掘相关会议在中国,充分体现了我们的IT企业在经历了原始社会后的第一次进步,开始注重机器学习这已经是国外巨头梦寐以求的热土。本次金牌赞助是华为、腾讯、百度,比赛分为两组,一组以研究微博用户关注为基础数据,预测未给出的用户关系;另外一组应该是对搜索引擎广告推荐的相关预测,数据还未出来大家拭目以待,3月1日。报名参赛与数据发布提交地址:http://www.kddcup2012.org/以下来自->官方网站http://www.kdd.org/kdd2012/This year’s KDD Cup is sponsored by Tencent Inc.,
阅读全文
摘要:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。 WEKA作为一个公开的数据挖掘工作平台,集合.
阅读全文