摘要: 遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体:组成种群的单个生物。 基因 ( Gene ) :一个遗传因子。 染色体 ( Chromosome ) :包含一组的基因。 生存竞争,适者生存:对环境适应度高的、牛B的个体参与繁殖的机会比较多,后代就会越来越多。适应度低的个... 阅读全文
posted @ 2012-05-01 12:41 icamel 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为在A点无论向那个方向小幅度移动都不能得到更优的解。图1二. 模拟退火(SA,Simulated Annealing)思想 爬山法是完完全全的贪心法,每次都鼠目寸光的选择一个当前最优解,因此只能搜索到局部的最优值。模拟退火其实也是一种贪心算法 阅读全文
posted @ 2012-05-01 12:40 icamel 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 最近几天测试了mahout svd算法,网上的文档比较少,花了不少时间读它的代码,终于把流程搞清楚了,在这里总结一下。1、关于奇异值分解的理论基础,请参看下面的链接http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html2、关于奇异值分解的应用场景,请参看下面的例子http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/3、关于奇异值分解输入、输出文格式的件的转换,,请参考 http://bickson.blogsp 阅读全文
posted @ 2012-04-26 21:43 icamel 阅读(985) 评论(0) 推荐(0) 编辑
摘要: 最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Item based collective filtering这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推 阅读全文
posted @ 2012-04-26 21:02 icamel 阅读(1204) 评论(0) 推荐(1) 编辑
摘要: 我总结了一下现有的著名的商业推荐系统,这里也分享一下:图书Amazon豆瓣读书当当网新闻google newsGenieo电影NetflixJinniMovieLensRotten TomatoesFlixsterMTime音乐豆瓣电台LastfmPandoraMufinLalaEMusicPing视频YoutubeHuluClciker文章CiteULikeGoogle ReaderStumbleUpon旅游WanderflyTripAdvisor社会网络Facebooktwitter综合AmazonGetGlueStrands欢迎大家补充,我还在不断完善这个列表本文转载在:http://b 阅读全文
posted @ 2012-04-26 20:38 icamel 阅读(382) 评论(0) 推荐(0) 编辑
摘要: KDD Cup 2011的主题是音乐推荐,虽然数据集还没有正式公布,但相关的讨论已经开始预热了。本次数据集合的一个特点,是评分对象不光是歌曲,还包括专辑、艺术家 和音乐流派,这使得用户的偏好相对更丰富和层次化;但content-based的研究者意见很大,音乐信息也被搞成匿名使得他们基本没法玩了。其实个人认为,即使有了用户评分和资源数据,类似这样以特定目标函数为优化对象的竞赛,距离实际应用的音乐推荐系统还有蛮大的差别。毕竟我们没办法拿几个 prediction指标来评价效果,更何况对于一个日常实际应用来讲,在更新相对缓慢的音乐数据集合上想要做的不是一个单次推荐。还是那句正确的废话, 数据、算法 阅读全文
posted @ 2012-04-26 20:36 icamel 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 1.weight=2.0 in user_key_words.txt item的关键字来自于描述语句,可以重复,然后把他复制到用户关键字文件中,同时用户关键字文件中还有从发的微博或转发微博提取出来的关键字。 解答自:http://www.kddcup2012.org/c/kddcup2012-track1/forums/t/1480/weight-2-0-in-user-key-words-txt2. 文本相似的的计算 来源1:http://wenku.baidu.com/view/d75e953987c24028915fc3da.html 来源2:http://cslt.riit.ts... 阅读全文
posted @ 2012-04-25 15:09 icamel 阅读(382) 评论(0) 推荐(0) 编辑
摘要: http://www.sina.com.cn2011年04月12日09:48新浪科技 李彦宏发表演讲 新浪科技讯 4月12日上午消息,百度CEO李彦宏今日在丽江举办的百度联盟峰会上发表演讲称,中国互联网未来两到三年应该有的三大机会分别是:中间业务、读图时代和应用为王。 李彦宏:中国互联网三大机会 媒体来源:新浪科技 以下为李彦宏演讲全文: 各位百度联盟的合作伙伴、各位媒体的朋友,大家上午好! 首先欢迎大家来到美丽的丽江来参加我们一年一度的百度联盟峰会,联盟峰会已经连续举行了六年,我觉得越来越成规模了。以前我来参加的话,可能真 的是一个致辞的性质,就是跟大家见见面,有一些非正式的交流。... 阅读全文
posted @ 2012-04-24 18:05 icamel 阅读(193) 评论(0) 推荐(0) 编辑
摘要: (1)WinSCP简介 通过WinSCP可以编辑、删除VPS上的文件,和上传文件到VPS。 与FTP不同的是,FTP通过会限制在某一目录中,而使用root通过WinSCP登录后则可以操作系统中的所有文件。 WinSCP的不足之处在于,WinSCP使用SFTP协议进行连接,而通过该连接的通信内容全部是经过加密的,在保证了安全的同时,也降低了传输速度。 所以,通常在FTP操作不了的情况下,才需要使用WinSCP。 (2)安装WinSCP 首先需要下载该软件。可以到官方网站(http://winscp.net/eng/download.php)通过下载链接下载,也可以直接通过下面的链接进... 阅读全文
posted @ 2012-04-23 09:59 icamel 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 过去的几周对我来说是一段相当复杂的经历。我们公司进行了大裁员,我是其中之一,但却体验到了其中的乐 趣。我从来没有被开除过,所以很难不去想得太多。我开始浏览招聘板块,一个全职PHP程序员的职位很吸引人,所以我寄去了简历并获得了面试机会。在面试之 间,我和其主要的程序员们在咨询电话中聊了聊,最后他们给我出了一套测试题,其中有一道很耐人寻味。 找出以下代码的错误之处: $x = new Array(); $x[sales] = 60; $x[profit] = 20: foreach($x as $key = $value) { echo $key+" "+$value+&quo 阅读全文
posted @ 2012-04-21 19:01 icamel 阅读(134) 评论(0) 推荐(0) 编辑