12 2015 档案
摘要:原文:http://www.jdon.com/bigdata/a-tour-of-machine-learning-algorithms.html这篇文章介绍几个最流行的机器学习算法。现在有很多机器学习算法,困难的是进行方法归类,这里我们介绍两种方法进行思考和分类这些算法。第一组算法是学习风格,第二...
阅读全文
摘要:原文:http://yq.aliyun.com/articles/119?spm=5176.100240.searchblog.16.4paLXX【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大...
阅读全文
摘要:原文:http://yq.aliyun.com/articles/122?spm=0.0.0.0.oL8bTY周梁:淘宝推荐机器学习技术专家,中国科学院自动化研究所机器学习博士,主要研究工作方向是机器学习、大规模并行算法优化。先后从事过广告CTR预估,MPI机器学习平台搭建,手淘个性化推荐等多方面工...
阅读全文
摘要:原文:http://yq.aliyun.com/articles/112【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成...
阅读全文
摘要:原文:http://blog.csdn.net/aspirinvagrant/article/details/48415435GBDT,全称Gradient Boosting Decision Tree,叫法比较多,如Treelink、 GBRT(Gradient Boost Regression ...
阅读全文
摘要:原文:http://www.lvjiyong.com/i356.html摘要:今天公司网站发现了有用户开始作弊,这属于意外之中的事,广告联盟作弊与反作弊这个永恒的话题,对于广告收受方的盈利简单易懂是广告系统是否受人信任的前提,但适当根据平台的特点提高计费方法也是必然,对于我们现在采用的CPM模式或许...
阅读全文
摘要:原文:http://www.52cs.org/?p=429作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)...
阅读全文
摘要:原文:http://blog.sina.com.cn/s/blog_5c2f929b0100qse8.html有三种工具可用1.网上有一个xls文FormatDataLibsvm.xls具有宏命令,可以利用其中的宏命令来实现。对于属性数据只有一二百的,这种工具简单方便。2.对于一两千的就需要借助代码...
阅读全文
摘要:原文:http://blog.csdn.net/ice110956/article/details/20288239ROC曲线对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络,得到诸如0.5,0,8这样的分类结果。这时,我们人为取一个阈值,比如0.4,那么小于0.4的...
阅读全文
摘要:原文:http://www.cnblogs.com/itech/archive/2012/02/22/2363111.html1)一些常用的Vim配置,在~/.vimrc中syntax on 支持语法高亮set nu 显示行号set nonu 不显示行号set ai 设置自...
阅读全文
摘要:原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/在Hadoop上运行基于RMM中文分词算法的MapReduce程序23条回复我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者...
阅读全文
摘要:原文:http://www.cnblogs.com/cyttina/archive/2013/06/08/3127345.htmlubuntu的看官方的文档就好了。http://scikit-learn.org/stable/install.html我使用的是centOS,python为2.7.3关...
阅读全文
摘要:原文:http://blog.csdn.net/zc02051126/article/details/46771793在Python中使用XGBoost下面将介绍XGBoost的Python模块,内容如下:*编译及导入Python模块*数据接口*参数设置*训练模型l*提前终止程序*预测Awalk t...
阅读全文
摘要:原文:https://herbertmj.wikispaces.com/stacking%E7%AE%97%E6%B3%95stacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boostin...
阅读全文
摘要:原文:http://blog.csdn.net/mytestmy/article/details/18983889从广义线性模型到逻辑回归声明:1)该博文是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部...
阅读全文
摘要:原文:http://blog.csdn.net/mytestmy/article/details/190885191)该博文是Yahoo专家所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些...
阅读全文
摘要:原文:http://dongguo.me/blog/2014/01/01/expectation-propagation/简介第一次接触EP是10年在百度实习时,当时组里面正有计划把线上的CTR预估模型改成支持增量更新的版本,读到了微软一篇基于baysian的CTR预估模型的文章(见推荐阅读5),文...
阅读全文
摘要:原文:http://hijiangtao.github.io/2014/10/06/WeiboRecommendAlgorithm/基础及关联算法作用:为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析、为推荐业务提供指导。分词技术与核心词提取:是微博内容推荐的基础,用于将微...
阅读全文
摘要:原文:http://www.infoq.com/cn/news/2014/03/baidu-salon48-summary2014年3月15日,在由@百度主办、@InfoQ负责策划组织和实施的第48期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各...
阅读全文
摘要:原文:http://wbj0110.iteye.com/blog/2043065该文是百度文库课程《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d...
阅读全文
摘要:原文:http://blog.xlvector.net/2014-02/different-logistic-regression/最近几年广告系统成为很多公司的重要系统之一,定向广告技术是广告系统中的重要技术,点击率预估是定向广告技术中的重要组成部分,Logistic Regression是解决点...
阅读全文
摘要:原文:http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/广告点击率预测屈伟/ Koala++先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎...
阅读全文
摘要:原文:http://blog.csdn.net/w28971023/article/details/8240756#0-tsina-1-51337-397232819ff9a47a7b7e80a40613cfe1在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(...
阅读全文
摘要:本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大Simon Fraser University计算机学院研究生,研究兴趣为数据挖掘和生物信息学。主页:https://github.com/hetong007引言在数据分析的过程中,我们经常...
阅读全文
摘要:原文:http://blog.csdn.net/hero_fantao/article/details/34533533RT,尤其在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-featu...
阅读全文
摘要:原文:http://blog.csdn.net/hero_fantao/article/details/35784773不平衡学习方法机器学习中样本不平衡问题大致分为两方面:(1)类别中样本比率不平衡,但是几个类别的样本都足够多;(2)类别中某类样本较少。对第二个问题,其实不是我们重点,因为样本不足...
阅读全文
摘要:原文:http://blog.csdn.net/hero_fantao/article/details/42747281DisplayAdvertisingChallenge---------2015/1/12一:背景CriteoLabs2014年7月份在kaggle上发起了一次关于展示广告点击率的...
阅读全文
摘要:原文:http://m.blog.csdn.net/blog/lilyth_lilyth/480321191、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logis...
阅读全文
摘要:原文:http://scikit-learn.org/stable/modules/feature_selection.htmlThe classes in thesklearn.feature_selectionmodule can be used for feature selection/di...
阅读全文
摘要:原文:http://blog.sina.com.cn/s/blog_5357c0af0102uxoh.html下面罗列的几个在机器学习算法实际应用中误区,解决了我很多困惑,推荐大家读一下:Machine Learning Done WrongStatistical modeling is a lot...
阅读全文
摘要:MATLAB下安装贝叶斯网络工具箱FULLBNT转载2015-11-12 13:29:22标签:贝叶斯网络bnt安装MATLAB版本:MATLAB 7.10.0 (R2010a)FULLBNT版本:FullBNT-1.0.7,下载地址http://vdisk.weibo.com/s/aJo2nLgu...
阅读全文
摘要:原文:http://blog.sina.com.cn/s/blog_818f5fde0102vvpy.html在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得...
阅读全文
摘要:原文:http://blog.sina.com.cn/s/blog_818f5fde0102vxf7.html之前实习,公司团队用LR进行推荐排序的时候,都会将所有特征离散成非常高维的0/1特征(千万维级别),然后再进行模型训练。大牛说这样可以解决模型的非线性问题。因为逻辑回归只能拟合线性分类问题,...
阅读全文
摘要:特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法...
阅读全文
摘要:由于@北冥乘海生 老师坚持传播负能量,不谈计算广告干货,犯了严重的右倾机会主义错误,现暂停发文一次,由@德川 替代。说到计算广告,或者个性化推荐,甚至一般的互联网产品,无论是运营、产品还是技术,最为关注的指标,就是点击率。业界也经常流传着一些故事,某某科学家通过建立更好的点击率预测模型,为公司带来了...
阅读全文
摘要:原文:http://news.160.com/?p=1890在玩游戏中 经常 出现显示器驱动程序 NVIDIA Windows Kernel Mode Driver Version 已停止响应 并且己成功恢复 报错下面提供几种方法可以快速排除这类问题原因(如上图 NVIDIA Windows Ker...
阅读全文