摘要: Don’t Become a Scientist!Jonathan I. KatzProfessor of PhysicsWashington University, St. Louis, Mo.[my last name]@wuphys.wustl.edu千万别成为科学家!约拿单 I. 卡茨,物理学教授,华盛顿大学Are you thinking of becoming a scientist? Do you want to uncover the mysteries of nature, perform experiments or carry out calculations to le 阅读全文
posted @ 2012-03-17 11:56 星语心愿~ 阅读(714) 评论(0) 推荐(0) 编辑
摘要: 新兴研究领域介绍:图挖掘和多关系数据挖掘。一、什么是图挖掘?为什么进行图挖掘 1、图的用途越来越广,包括对互联网、社会化网络、生物、电路、图像的建模。 2、许多图搜索算法已经被开发出来了,并且广泛用在信息检索、计算机视觉等领域; 3、需要进一步开发高效的图挖掘算法,以便从更加复杂的结构化数据中挖掘出有效的知识。二、挖掘频繁子图 1、Apriori-based 方法:包括AGM,FSG和path-join算法; 2、Pattern growth graphy method;三、社会网络应用的连接分析(link analysis) 1、基于连接的对象分类(Link bas... 阅读全文
posted @ 2012-03-17 11:54 星语心愿~ 阅读(558) 评论(0) 推荐(0) 编辑
摘要: 每次谈到数据挖掘都让人很兴奋,但是真正的应用有几个是数据挖掘算法支撑起来的呢:大家哈哈一笑,”除了尿布和啤酒“还有什么拿的出的例子吗。传统的统计学方法可以解决大多数知识发现问题。数据挖掘实际上是一组在人类高级智能和计算机低级智能间的抽象算法:分类(聚类,智能是基础)、关联(和专家系统的规则有区别吗)。个人认为数据挖掘的几个算法其本质类似于数据库领域的”SQL“语句。用几个基本的算子尽量组织成复杂的逻辑,解决现实的问题。说了半天,数据挖掘的发展不外乎两个方向:1、扩展到更多领域,用基本的方法解决新问题;2、优化算法(设计新的算法)更快的完成几个功能(包括解决大数据问题需要的方法)。 因此,... 阅读全文
posted @ 2012-03-17 11:53 星语心愿~ 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 两小时足够完成一个创意并实现他了,花费四周的设计只不过是在添油加醋的虚伪工作。成功的人并不是一定比别人更有才智和更幸运。他们只是在不断的尝试、不断的失败,直到成功。在两个小时内考虑好自己要干什么,而后两小时内实现他。不停的实践,纠错,直到成功。 阅读全文
posted @ 2012-03-17 11:53 星语心愿~ 阅读(122) 评论(0) 推荐(0) 编辑
摘要: Predict which users (or information sources) oneuser might follow in Tencent Weibo.数据挖掘竞赛主题一:预测围脖的潜在关注者(腾讯赞助)竞赛主页:http://www.kddcup2012.org/c/kddcup2012-track11、背景 近些年,在线社交网络发展的如火如荼,流行的站点有twitter,facebook等。在2010年4月发布以来,腾讯微博每天都有成千上万的人加入。腾讯微博作为中国最大的围脖系统之一,已经成为了人们发掘朋友共享爱好的平台。当前该平台已经拥有2亿用户,每天产生月四千万信息。这些 阅读全文
posted @ 2012-03-17 11:51 星语心愿~ 阅读(731) 评论(0) 推荐(0) 编辑
摘要: Kaggle is an innovative solution for statistical/analytics outsourcing. We are the leading platform for predictive modeling competitions. Companies, governments and researchers present datasets and problems – the world’s best data scientists then compete to produce the best solutions. At the end of 阅读全文
posted @ 2012-03-17 11:45 星语心愿~ 阅读(310) 评论(0) 推荐(0) 编辑
摘要: KDD Cup 2012:今年的数据挖掘相关会议在中国,充分体现了我们的IT企业在经历了原始社会后的第一次进步,开始注重机器学习这已经是国外巨头梦寐以求的热土。本次金牌赞助是华为、腾讯、百度,比赛分为两组,一组以研究微博用户关注为基础数据,预测未给出的用户关系;另外一组应该是对搜索引擎广告推荐的相关预测,数据还未出来大家拭目以待,3月1日。报名参赛与数据发布提交地址:http://www.kddcup2012.org/以下来自->官方网站http://www.kdd.org/kdd2012/This year’s KDD Cup is sponsored by Tencent Inc., 阅读全文
posted @ 2012-03-17 11:43 星语心愿~ 阅读(498) 评论(0) 推荐(0) 编辑
摘要: http://www.dy131.com/ 阅读全文
posted @ 2012-03-14 13:05 星语心愿~ 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 这本书,徐老师出的,可惜市场上买不到,其他地方也下载不到。。只有这个链接还要XX币的http://www.docin.com/p-105157806.html 阅读全文
posted @ 2012-03-14 13:03 星语心愿~ 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。谢超Admaster数据挖掘总监,云计算实践者,10年数据仓库和数据挖掘咨询经验,现专注于分布式平台上的海量数据挖掘和机器学习。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为 阅读全文
posted @ 2012-03-14 13:00 星语心愿~ 阅读(283) 评论(0) 推荐(0) 编辑