摘要: 作为一个推荐系统业余爱好者,在机器学习领域的鄙视链中,我感觉一直地位不高,时常被搞NLP CV语音等高科技技术的朋友鄙视。最近甚至被人问,推荐算法开源包多如牛毛,我们为什么还要专门的推荐算法工程师?(难道想要辞退我!?惊)不得不说,我想吐槽这个观点很久了。事实上搞推荐的工作不等于 import IB... 阅读全文
posted @ 2015-01-08 18:40 懒惰啊我 阅读(33219) 评论(16) 推荐(26) 编辑
摘要: 废话:最近朋友在学习推荐系统相关,说是实现完整的推荐系统,于是我们三不之一会有一些讨论和推导,想想索性整理出来。在文中主要以工程中做推荐系统的流程着手,穿插一些经验之谈,并对于推荐系统的算法的学术界最新的研究进展和流派作一些介绍。当然由于我做推荐系统之时还年幼,可能有很多偏颇甚至错误的见解,就当抛砖引玉,还请各位大大指点。Readinglists虽然很多人觉得作为AI的分支之一,推荐跟自然语言处理等问题的难度不可同日而语。但所谓磨刀不误砍柴工,我觉得,至少在开工前先应该阅读这样基本书,起码要看看目录,以对于推荐系统有个初步的了解。中文书籍:1.《推荐系统实践》项亮http://book.dou 阅读全文
posted @ 2013-03-03 12:53 懒惰啊我 阅读(43526) 评论(19) 推荐(10) 编辑
摘要: 废话:周日讲了下神经网络,本来想的是以理论和实践相结合,前面讲讲神经网络,后面简单讲下在weka中怎么使用BP神经网络,可惜最后时间不够,而且姥姥的兴趣点跑到凸优化那里去了,所以没有讲成实践的部分,有点郁闷的。为了不浪费了,就把这部分讲稿拿出来和大家分享一下,也希望对大家实践神经网络有所帮助。因为是讲稿,讲的要比写的多,所以很多地方口语化和省略比较严重,大家凑合着看吧。 实践部分讲稿正文: Weka是什么? Weka是由新西兰怀卡托大学用Java开发的数据挖掘常用软件,Weka是怀卡托智能分析系统的缩写。Weka限制在GNU通用公众证书的条件下发布,它几乎可以运行在所有操作系统平台上,包括Li 阅读全文
posted @ 2012-12-26 09:41 懒惰啊我 阅读(23655) 评论(4) 推荐(4) 编辑
摘要: 有博客园上的朋友问“领域目前的从业情况”@疯狂的小风各位大大如果有恰好是在公司任职做数据挖掘的,也请不吝分享下自己的工作,大家也可以交流下数据挖掘在业内的从业情况。我先抛砖引玉下,在以前公司主要是做一些recommend system的搭建,主要包括各种分类用户数据的抓取与过滤,调整算法参数和结果的一些指标评测以及其可视化;还有就是关于spam user的detect。前几天接到EMC2的电话,发现他们也是做数据挖掘的,毕竟是号称大数据的公司,不过具体干嘛没问,说是以后再联系。百度的数据挖掘应用则多如牛毛,做数据挖掘的进去了不愁找不到坑坐。淘宝的数据挖掘部门也是众所周知的数据魔方,里面大概分了 阅读全文
posted @ 2012-12-23 01:47 懒惰啊我 阅读(3840) 评论(10) 推荐(0) 编辑
摘要: 做数据挖掘也有些年头了,写这篇文一方面是写篇文,给有个朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。 阅读全文
posted @ 2012-12-22 18:27 懒惰啊我 阅读(18483) 评论(31) 推荐(15) 编辑
摘要: 博主自身水平有限 原博客写的非常好 我也收益匪浅而且订阅了 只是发表一些观点作抛砖引玉 欢迎不同意见的大家一起交流刚看了《如果你是人人网的流量分析产品经理,如何解释 7 月 1 日到 7 月 7 日人人网的总流量以每日 5% 的幅度下滑?》这篇博客http://piaolin.sinaapp.com/?p=28原博主觉得“在一瞬间给出直觉的答案:因为人人网主要的用户是学生,而7月初可能是考试或者放暑假回家的日子。这样的产品经理难能可贵。”其实我觉得能在一瞬间给出直觉的答案并不是那么的可贵 因为有的时候很多问题的原因可能是混杂的而且是多方面的 充满了外部因素的在《思考 快与慢》这本书就给出了直觉 阅读全文
posted @ 2012-12-12 16:55 懒惰啊我 阅读(861) 评论(1) 推荐(1) 编辑
摘要: ps:由于篇幅问题,这篇博客主要介绍数据挖掘标准化流程中的project understanding问题,剩下的5个方面,特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去本文的一部分是翻译,有的部分是自己做数据挖掘项目时候的一些小的心得,也不见得正确,仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com关于数据挖掘的标准化流程有大体有如下几种:SEMMA(sample,explore,modify,model,assessusedbySASInstituteInc)C 阅读全文
posted @ 2012-11-23 21:41 懒惰啊我 阅读(4253) 评论(0) 推荐(1) 编辑
摘要: 提到数据挖掘时,我们往往着重于建模时的算法而忽视其他步骤,而在realworld的数据挖掘项目中,其他步骤则是决定项目成败的关键。《guidetointelligentdataanalysis》这本书是knime官网推荐的书籍(http://tech.knime.org/guide-to-intelligent-data-analysis),按照CRISP-DM的流程讲述了数据挖掘流程的过程。我们先从什么是数据挖掘入手。要理解什么是数据挖掘,首先需要区分的是便是data和knowledge。我们对比data和knowledge的特征:DataKnowledge涉及到的是单个的实例(单个的事物, 阅读全文
posted @ 2012-11-23 17:44 懒惰啊我 阅读(4193) 评论(6) 推荐(0) 编辑
摘要: 简介: 最近大家十分关注美国大选,其中说的很火热的一点便是利用数据挖掘对于大选进行政治动员。刚好最近nature上有一篇名为A 61-million-person experiment in social influence and political mobilization文章就是讲的一个在上届美国大选时利用facebook上的实验数据对于政治动员和社交影响的分析。于是也学习了下。 本文主要分为两个部分,第一部分为对于这篇paper的在学习中的简要翻译和记录。第二部分为自己的一点简要心得。翻译和记录:A61-million-personexperimentinsocialinfluen.. 阅读全文
posted @ 2012-11-13 13:49 懒惰啊我 阅读(1806) 评论(1) 推荐(2) 编辑