11 2015 档案
摘要:原文:http://www.cnblogs.com/taceywong/p/4568806.html原文地址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html翻译:Tacey Wong概要:该章节,我们将介绍贯穿scikit-le...
阅读全文
摘要:原文:http://www.zhihu.com/question/217146674 个回答83赞同反对,不会显示你的姓名皮果提刘鑫、莫教授要养猫、Starling Niohuru等人赞同要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中的词进行数学化的一种方式...
阅读全文
摘要:原文:http://closure.blog.ustc.edu.cn/?p=117阿里这次天猫推荐算法大赛题目的核心是给定用户对品牌的四个月的操作记录,预测下个月哪些用户对哪些品牌产生购买行为,这可以抽象为一个01分类问题,更确切的可以抽象为一个点击率预估(CTR)。与其说这是一次比赛,我觉得更多的...
阅读全文
摘要:原文:http://www.cnblogs.com/Matrix_Yao/p/4773221.html程序化广告交易中的点击率预估指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告...
阅读全文
摘要:原文:http://blog.csdn.net/xmu_jupiter/article/details/46755679首先声明:本博客的写作思路是对机器学习的一些基本算法做一些通俗性的灵活理解,以及对一些细节的进行简单剖析,还有记录本人在使用算法时的一些小经验小感想。本人一般不会对基本公式做大量推...
阅读全文
摘要:原文:http://www.itongji.cn/article/121930092013.html营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解...
阅读全文
摘要:原文:http://blog.csdn.net/xmu_jupiter/article/details/47108523对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到...
阅读全文
摘要:原文:http://www.flickering.cn/ads/2014/08/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-4%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%EF%BC%8D%E7%AE%80%E4%BB%8B...
阅读全文
摘要:原文:hhttp://www.flickering.cn/ads/2014/06/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0%E2%80%94%E2%80%94%E5%BC%95%E8%A8%80/最近几年,“计算广告学”的概念风生水起,让我们这些从事...
阅读全文
摘要:原文:http://dataunion.org/20226.html请看下面的图:我们以热卖产品的统计为例,看下传统的计算手段:将用户行为、log等信息清洗后保存在数据库中.将订单信息保存在数据库中.利用触发器或者协程等方式建立本地索引,或者远程的独立索引.join订单信息、订单明细、用户信息、商品...
阅读全文
摘要:原文:http://dataunion.org/20276.html作者:JasonDing1354引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征...
阅读全文
摘要:原文:http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html1 综述(1)什么是特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择...
阅读全文
摘要:原文:http://dataunion.org/14072.html作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征...
阅读全文
摘要:原文:http://www.zhihu.com/question/28641663/answer/41653367查看全部 5 个回答91赞同反对,不会显示你的姓名严林,做过几个机器学习系统陈新鹏、Terry Meng、烤红薯等人赞同特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间...
阅读全文
摘要:http://machinelearningmastery.com/start-here/ 机器学习教程。
阅读全文
摘要:原文:http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/Feature engineering is an informa...
阅读全文
摘要:原文:http://www.zhihu.com/question/204484645 个回答Jason Gu,肖子达、RainVision、舟舟舟等人赞同偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就...
阅读全文
摘要:原文:http://www.zhihu.com/question/2070082927 个回答46赞同反对,不会显示你的姓名ALAN Huang,什么都会一点点欣然、王志、马克等人赞同Orangeprince的回答非常学院派,也非常系统。 过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增...
阅读全文
摘要:原文:http://blog.sina.com.cn/s/blog_5b29caf7010127vh.htmlLibsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创...
阅读全文
摘要:对于多分类问题以及核函数的选取,以下经验规则可以借鉴:如果如果特征数远远大于样本数的情况下,使用线性核就可以了.如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIB...
阅读全文
摘要:原文:http://blog.csdn.net/mytestmy/article/details/18987881互联网广告综述之点击率系统声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体...
阅读全文
摘要:原文:http://blog.csdn.net/mytestmy/article/details/19088827互联网广告综述之点击率特征工程声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分...
阅读全文
摘要:原文:http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是...
阅读全文
摘要:原文:http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/广告点击率预测屈伟/ Koala++先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎...
阅读全文
摘要:原文:http://www.cnblogs.com/zengxiangzhan/archive/2009/09/23/1572276.htmlStudent(S#,Sname,Sage,Ssex) 学生表Course(C#,Cname,T#) 课程表SC(S#,C#,score) 成绩表Teache...
阅读全文
摘要:7次 首先分成5组A,B,C,D,E,赛5场 得到a1,b1,c1,d1,e1,假设a1>b1>c1>d1>e1 (这里可以改变序号,但不改变次序) 推出a1为第一的马,d1,e1不可能是前三的马,所以d1,e1不用参加最后一场。 同时推理出可能是第二...
阅读全文
摘要:原文:http://fatelei.github.io/2015/09/08/按照指定的权重求随机数描述:通常取随机数,取到每个数字的概率都是一样,比如取 n 次,取到某个数的概率都是 1/n。现在情况发生了变化,要随机取的数,每个数字都被设置了一个权值(weight),比如:上面这个图表的含义是:...
阅读全文
摘要:Swap(LinkNode low,LinkNode high)//交换两个结点{ low->prior->next=high;high->prior=low->prior; high->next->prior=low; low->next=high->next; high->next=low; l...
阅读全文
摘要:最近面试碰到的一个题目,业余时间用python实现的。拿到数据,先用sort 命令排序,也可再进一步去重复 sort -k 1,2 data.txt |uniq > data.new 1 # -*- coding:utf-8 -*- 2 3 #第一个字段是用户uid,第二个字段是商品tid,统计每...
阅读全文
摘要:原文:http://blog.csdn.net/smile0198/article/details/205783891、MR解决的问题的特点MR是应大数据的背景产生,其解决的问题的共性为:大问题可以被分解为许多子问题,且这些子问题相对独立,将这些子问题并行处理完后,大问题也就被解决。是用来分治、分解...
阅读全文
摘要:原文:http://blog.csdn.net/tmljs1988/article/details/7562926可以运行1.HUD流程图:完整源代码如下:/*OSG中的HUD,文字总是显示在最前面*/#include#include#include#include#include#include#...
阅读全文
摘要:原文:http://blog.csdn.net/lincyang/article/details/6252443格式化:%x表示按16进制输出;int a = 16;%02x:输出10;%03x:输出:010;%04x:输出:0010;下文转载:http://tech.e800.com.cn/art...
阅读全文