04 2012 档案

摘要:最近几天测试了mahout svd算法,网上的文档比较少,花了不少时间读它的代码,终于把流程搞清楚了,在这里总结一下。1、关于奇异值分解的理论基础,请参看下面的链接http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html2、关于奇异值分解的应用场景,请参看下面的例子http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/3、关于奇异值分解输入、输出文格式的件的转换,,请参考 http://bickson.blogsp 阅读全文
posted @ 2012-04-26 21:43 icamel 阅读(985) 评论(0) 推荐(0) 编辑
摘要:最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Item based collective filtering这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推 阅读全文
posted @ 2012-04-26 21:02 icamel 阅读(1204) 评论(0) 推荐(1) 编辑
摘要:我总结了一下现有的著名的商业推荐系统,这里也分享一下:图书Amazon豆瓣读书当当网新闻google newsGenieo电影NetflixJinniMovieLensRotten TomatoesFlixsterMTime音乐豆瓣电台LastfmPandoraMufinLalaEMusicPing视频YoutubeHuluClciker文章CiteULikeGoogle ReaderStumbleUpon旅游WanderflyTripAdvisor社会网络Facebooktwitter综合AmazonGetGlueStrands欢迎大家补充,我还在不断完善这个列表本文转载在:http://b 阅读全文
posted @ 2012-04-26 20:38 icamel 阅读(382) 评论(0) 推荐(0) 编辑
摘要:KDD Cup 2011的主题是音乐推荐,虽然数据集还没有正式公布,但相关的讨论已经开始预热了。本次数据集合的一个特点,是评分对象不光是歌曲,还包括专辑、艺术家 和音乐流派,这使得用户的偏好相对更丰富和层次化;但content-based的研究者意见很大,音乐信息也被搞成匿名使得他们基本没法玩了。其实个人认为,即使有了用户评分和资源数据,类似这样以特定目标函数为优化对象的竞赛,距离实际应用的音乐推荐系统还有蛮大的差别。毕竟我们没办法拿几个 prediction指标来评价效果,更何况对于一个日常实际应用来讲,在更新相对缓慢的音乐数据集合上想要做的不是一个单次推荐。还是那句正确的废话, 数据、算法 阅读全文
posted @ 2012-04-26 20:36 icamel 阅读(363) 评论(0) 推荐(0) 编辑
摘要:1.weight=2.0 in user_key_words.txt item的关键字来自于描述语句,可以重复,然后把他复制到用户关键字文件中,同时用户关键字文件中还有从发的微博或转发微博提取出来的关键字。 解答自:http://www.kddcup2012.org/c/kddcup2012-track1/forums/t/1480/weight-2-0-in-user-key-words-txt2. 文本相似的的计算 来源1:http://wenku.baidu.com/view/d75e953987c24028915fc3da.html 来源2:http://cslt.riit.ts... 阅读全文
posted @ 2012-04-25 15:09 icamel 阅读(382) 评论(0) 推荐(0) 编辑
摘要:http://www.sina.com.cn2011年04月12日09:48新浪科技 李彦宏发表演讲 新浪科技讯 4月12日上午消息,百度CEO李彦宏今日在丽江举办的百度联盟峰会上发表演讲称,中国互联网未来两到三年应该有的三大机会分别是:中间业务、读图时代和应用为王。 李彦宏:中国互联网三大机会 媒体来源:新浪科技 以下为李彦宏演讲全文: 各位百度联盟的合作伙伴、各位媒体的朋友,大家上午好! 首先欢迎大家来到美丽的丽江来参加我们一年一度的百度联盟峰会,联盟峰会已经连续举行了六年,我觉得越来越成规模了。以前我来参加的话,可能真 的是一个致辞的性质,就是跟大家见见面,有一些非正式的交流。... 阅读全文
posted @ 2012-04-24 18:05 icamel 阅读(193) 评论(0) 推荐(0) 编辑
摘要:(1)WinSCP简介 通过WinSCP可以编辑、删除VPS上的文件,和上传文件到VPS。 与FTP不同的是,FTP通过会限制在某一目录中,而使用root通过WinSCP登录后则可以操作系统中的所有文件。 WinSCP的不足之处在于,WinSCP使用SFTP协议进行连接,而通过该连接的通信内容全部是经过加密的,在保证了安全的同时,也降低了传输速度。 所以,通常在FTP操作不了的情况下,才需要使用WinSCP。 (2)安装WinSCP 首先需要下载该软件。可以到官方网站(http://winscp.net/eng/download.php)通过下载链接下载,也可以直接通过下面的链接进... 阅读全文
posted @ 2012-04-23 09:59 icamel 阅读(424) 评论(0) 推荐(0) 编辑
摘要:过去的几周对我来说是一段相当复杂的经历。我们公司进行了大裁员,我是其中之一,但却体验到了其中的乐 趣。我从来没有被开除过,所以很难不去想得太多。我开始浏览招聘板块,一个全职PHP程序员的职位很吸引人,所以我寄去了简历并获得了面试机会。在面试之 间,我和其主要的程序员们在咨询电话中聊了聊,最后他们给我出了一套测试题,其中有一道很耐人寻味。 找出以下代码的错误之处: $x = new Array(); $x[sales] = 60; $x[profit] = 20: foreach($x as $key = $value) { echo $key+" "+$value+&quo 阅读全文
posted @ 2012-04-21 19:01 icamel 阅读(134) 评论(0) 推荐(0) 编辑
摘要:随着KDD CUP 2011的结束,需要开始总结我们的解决方案了。我们在最终测试集Test2中排名第二,和在排行榜中测试集Test1上的排名是一致的。我先发一篇 Blog大致总结一下我们的方案,一来自己回顾和理清整个过程便于后面详细的写Solution Paper,二来与大家分享我们队的成果。Track2的任务是这样的。给定训练集中包含许多用户对歌曲、曲集、歌手、曲风的打分,但不提供打分时间。同时也提供了歌曲、曲集等在内容上的关系,如每个歌曲是哪个歌手唱的,属于哪个曲集。给定的测试集中包含部分用户,以及每个用户对应给出了6首歌曲。已知这6首歌曲中是包含3首实际被用户打了80分或以上,另外3首没 阅读全文
posted @ 2012-04-21 13:46 icamel 阅读(493) 评论(0) 推荐(0) 编辑
摘要:辛卯年乙未月己巳日,大局已定。仿三国演义,记下赛事五回。第一回 山中有寨柠檬香,邪道异术出山狂第二回 绝世秘籍未相传,独门小式败探花第三回 光阴有痕巧破译,大象无形气莫测第四回 山穷水尽疑无路,九易参数又一村第五回 强强联合遇强敌,人品爆发显王道 作为程序员,先说说“第〇回”的故事。比赛前半年,dora神发现了有个叫KDD Cup的比赛,做数据挖掘的,而且有奖金。在研一迷茫的生活中,发现一个既是我当时最有兴趣的数据挖掘方向的,又是有奖金的比赛,肯定是高兴的不得了,果断写入TODO-list。第一回 山中有寨柠檬香,邪道异术出山狂 转眼间就到了“第一回”的时间,比赛开始了。KDDCup 20.. 阅读全文
posted @ 2012-04-21 13:46 icamel 阅读(628) 评论(1) 推荐(0) 编辑
摘要:注:通过php.ini 的upload_tmp_dir = "D:/studyphp"来设置上传文件的保存路径创建一个文件上传表单允许用户从表单上传文件是非常有用的。请看下面这个供上传文件的 HTML 表单:<html><body><form action="upload_file.php" method="post"enctype="multipart/form-data"><label for="file">Filename:</labe 阅读全文
posted @ 2012-04-01 21:14 icamel 阅读(349) 评论(0) 推荐(0) 编辑