2015 年 11月随笔档案 - 止战

[译]使用scikit-learn进行机器学习的简介(教程1)

摘要：原文：http://www.cnblogs.com/taceywong/p/4568806.html原文地址：http://scikit-learn.org/stable/tutorial/basic/tutorial.html翻译：Tacey Wong概要：该章节，我们将介绍贯穿scikit-le... 阅读全文

posted @ 2015-11-30 19:50 止战阅读(23739) 评论(0) 推荐(1) 编辑

词向量（ Distributed Representation）工作原理是什么

摘要：原文：http://www.zhihu.com/question/217146674 个回答83赞同反对，不会显示你的姓名皮果提刘鑫、莫教授要养猫、Starling Niohuru等人赞同要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，词向量就是用来将语言中的词进行数学化的一种方式... 阅读全文

posted @ 2015-11-30 19:19 止战阅读(1397) 评论(0) 推荐(0) 编辑

天猫推荐算法大赛总结

摘要：原文：http://closure.blog.ustc.edu.cn/?p=117阿里这次天猫推荐算法大赛题目的核心是给定用户对品牌的四个月的操作记录，预测下个月哪些用户对哪些品牌产生购买行为，这可以抽象为一个01分类问题，更确切的可以抽象为一个点击率预估（CTR）。与其说这是一次比赛，我觉得更多的... 阅读全文

posted @ 2015-11-30 19:03 止战阅读(2734) 评论(0) 推荐(0) 编辑

程序化广告交易中的点击率预估

摘要：原文：http://www.cnblogs.com/Matrix_Yao/p/4773221.html程序化广告交易中的点击率预估指标广告点击率预估是程序化广告交易框架的非常重要的组件，点击率预估主要有两个层次的指标： 1. 排序指标。排序指标是最基本的指标，它决定了我们有没有能力把最合适的广告... 阅读全文

posted @ 2015-11-30 18:44 止战阅读(522) 评论(0) 推荐(0) 编辑

对逻辑斯蒂回归的一些细节剖析

摘要：原文：http://blog.csdn.net/xmu_jupiter/article/details/46755679首先声明：本博客的写作思路是对机器学习的一些基本算法做一些通俗性的灵活理解，以及对一些细节的进行简单剖析，还有记录本人在使用算法时的一些小经验小感想。本人一般不会对基本公式做大量推... 阅读全文

posted @ 2015-11-30 16:23 止战阅读(9240) 评论(0) 推荐(0) 编辑

逻辑回归与决策树在分类上的一些区别

摘要：原文：http://www.itongji.cn/article/121930092013.html营销预测模型的目标变量很多为一种状态或类型，如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解... 阅读全文

posted @ 2015-11-30 16:22 止战阅读(3401) 评论(0) 推荐(1) 编辑

机器学习算法需要注意的一些问题

摘要：原文：http://blog.csdn.net/xmu_jupiter/article/details/47108523对于机器学习的实际运用，光停留在知道了解的层面还不够，我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到... 阅读全文

posted @ 2015-11-30 16:19 止战阅读(11703) 评论(1) 推荐(1) 编辑

[转化率预估-4]特征选择－简介

摘要：原文：http://www.flickering.cn/ads/2014/08/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-4%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%EF%BC%8D%E7%AE%80%E4%BB%8B... 阅读全文

posted @ 2015-11-30 16:15 止战阅读(869) 评论(0) 推荐(0) 编辑

[转化率预估-1]引言

摘要：原文：hhttp://www.flickering.cn/ads/2014/06/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0%E2%80%94%E2%80%94%E5%BC%95%E8%A8%80/最近几年，“计算广告学”的概念风生水起，让我们这些从事... 阅读全文

posted @ 2015-11-30 16:14 止战阅读(1032) 评论(0) 推荐(0) 编辑

你真的了解实时计算吗？

摘要：原文：http://dataunion.org/20226.html请看下面的图：我们以热卖产品的统计为例，看下传统的计算手段：将用户行为、log等信息清洗后保存在数据库中.将订单信息保存在数据库中.利用触发器或者协程等方式建立本地索引，或者远程的独立索引.join订单信息、订单明细、用户信息、商品... 阅读全文

posted @ 2015-11-30 16:00 止战阅读(461) 评论(0) 推荐(0) 编辑

想搞机器学习，不会特征工程？你TM逗我那！

摘要：原文：http://dataunion.org/20276.html作者：JasonDing1354引言在之前学习机器学习技术中，很少关注特征工程(Feature Engineering)，然而，单纯学习机器学习的算法流程，可能仍然不会使用这些算法，尤其是应用到实际问题的时候，常常不知道怎么提取特征... 阅读全文

posted @ 2015-11-30 15:52 止战阅读(1527) 评论(0) 推荐(0) 编辑

特征选择常用算法综述

摘要：原文：http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html1 综述(1)什么是特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择... 阅读全文

posted @ 2015-11-30 15:50 止战阅读(270) 评论(0) 推荐(0) 编辑

干货：结合Scikit-learn介绍几种常用的特征选择方法

摘要：原文：http://dataunion.org/14072.html作者：Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征... 阅读全文

posted @ 2015-11-30 15:45 止战阅读(770) 评论(0) 推荐(0) 编辑

机器学习中，有哪些特征选择的工程方法？

摘要：原文：http://www.zhihu.com/question/28641663/answer/41653367查看全部 5 个回答91赞同反对，不会显示你的姓名严林，做过几个机器学习系统陈新鹏、Terry Meng、烤红薯等人赞同特征选择是特征工程中的重要问题（另一个重要的问题是特征提取），坊间... 阅读全文

posted @ 2015-11-30 15:30 止战阅读(1772) 评论(0) 推荐(0) 编辑

牛逼的博客地址

摘要：http://machinelearningmastery.com/start-here/ 机器学习教程。阅读全文

posted @ 2015-11-30 15:18 止战阅读(274) 评论(0) 推荐(0) 编辑

Discover Feature Engineering, How to Engineer Features and How to Get Good at It

摘要：原文：http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/Feature engineering is an informa... 阅读全文

posted @ 2015-11-30 15:15 止战阅读(367) 评论(0) 推荐(0) 编辑

机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？

摘要：原文：http://www.zhihu.com/question/204484645 个回答Jason Gu，肖子达、RainVision、舟舟舟等人赞同偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就... 阅读全文

posted @ 2015-11-28 12:04 止战阅读(5072) 评论(0) 推荐(0) 编辑

机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？

摘要：原文：http://www.zhihu.com/question/2070082927 个回答46赞同反对，不会显示你的姓名ALAN Huang，什么都会一点点欣然、王志、马克等人赞同Orangeprince的回答非常学院派，也非常系统。过拟合表现在训练数据上的误差非常小，而在测试数据上误差反而增... 阅读全文

posted @ 2015-11-28 11:52 止战阅读(3466) 评论(0) 推荐(0) 编辑

Libsvm和Liblinear的使用经验谈

摘要：原文：http://blog.sina.com.cn/s/blog_5b29caf7010127vh.htmlLibsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创... 阅读全文

posted @ 2015-11-27 20:46 止战阅读(1295) 评论(0) 推荐(0) 编辑

LIBSVM与LIBLINEAR

摘要：对于多分类问题以及核函数的选取，以下经验规则可以借鉴：如果如果特征数远远大于样本数的情况下,使用线性核就可以了.如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIB... 阅读全文

posted @ 2015-11-27 17:57 止战阅读(4873) 评论(1) 推荐(1) 编辑

互联网广告综述之点击率系统

摘要：原文：http://blog.csdn.net/mytestmy/article/details/18987881互联网广告综述之点击率系统声明：1）该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2）本文仅供学术交流，非商用。所以每一部分具体... 阅读全文

posted @ 2015-11-25 16:18 止战阅读(609) 评论(0) 推荐(0) 编辑

互联网广告综述之点击率特征工程

摘要：原文：http://blog.csdn.net/mytestmy/article/details/19088827互联网广告综述之点击率特征工程声明：1）该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2）本文仅供学术交流，非商用。所以每一部分... 阅读全文

posted @ 2015-11-25 16:15 止战阅读(397) 评论(0) 推荐(0) 编辑

bootstrap, boosting, bagging 几种方法的联系

摘要：原文：http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时，看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍，以下是... 阅读全文

posted @ 2015-11-24 17:39 止战阅读(673) 评论(0) 推荐(0) 编辑

广告点击率预测

摘要：原文：http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/广告点击率预测屈伟/ Koala++先声明一下，本文所提到的所有的点击率预测的技术不是我在的团队使用的，因为我们团队使用的技术是保密的，所以我也不知道他们是怎... 阅读全文

posted @ 2015-11-23 17:23 止战阅读(2737) 评论(0) 推荐(0) 编辑

学生表课程表成绩表教师表 50个常用sql语句

摘要：原文：http://www.cnblogs.com/zengxiangzhan/archive/2009/09/23/1572276.htmlStudent(S#,Sname,Sage,Ssex) 学生表Course(C#,Cname,T#) 课程表SC(S#,C#,score) 成绩表Teache... 阅读全文

posted @ 2015-11-20 21:55 止战阅读(4781) 评论(0) 推荐(0) 编辑

如果要25匹马中选出跑得最快的3匹，每次只有5匹马同时跑，最少要比赛几次？

摘要：7次首先分成5组A,B,C,D,E，赛5场得到a1，b1，c1，d1，e1，假设a1>b1>c1>d1>e1 （这里可以改变序号，但不改变次序）推出a1为第一的马，d1，e1不可能是前三的马，所以d1，e1不用参加最后一场。同时推理出可能是第二... 阅读全文

posted @ 2015-11-18 22:58 止战阅读(709) 评论(0) 推荐(0) 编辑

按照指定的权重求随机数

摘要：原文：http://fatelei.github.io/2015/09/08/按照指定的权重求随机数描述：通常取随机数，取到每个数字的概率都是一样，比如取 n 次，取到某个数的概率都是 1/n。现在情况发生了变化，要随机取的数，每个数字都被设置了一个权值（weight），比如：上面这个图表的含义是：... 阅读全文

posted @ 2015-11-16 19:06 止战阅读(2159) 评论(0) 推荐(1) 编辑

双链表交换相邻结点

摘要：Swap(LinkNode low,LinkNode high)//交换两个结点{ low->prior->next=high;high->prior=low->prior; high->next->prior=low; low->next=high->next; high->next=low; l... 阅读全文

posted @ 2015-11-13 18:07 止战阅读(1325) 评论(0) 推荐(0) 编辑

统计的一个小题目python实现

摘要：最近面试碰到的一个题目，业余时间用python实现的。拿到数据，先用sort 命令排序，也可再进一步去重复 sort -k 1,2 data.txt |uniq > data.new 1 # -*- coding:utf-8 -*- 2 3 #第一个字段是用户uid,第二个字段是商品tid，统计每... 阅读全文

posted @ 2015-11-13 17:45 止战阅读(423) 评论(0) 推荐(0) 编辑

读书笔记--MapReduce 适用场景及常见应用

摘要：原文：http://blog.csdn.net/smile0198/article/details/205783891、MR解决的问题的特点MR是应大数据的背景产生，其解决的问题的共性为：大问题可以被分解为许多子问题，且这些子问题相对独立，将这些子问题并行处理完后，大问题也就被解决。是用来分治、分解... 阅读全文

posted @ 2015-11-11 22:00 止战阅读(1005) 评论(0) 推荐(0) 编辑

OSG的HUD抬头文字显示

摘要：原文：http://blog.csdn.net/tmljs1988/article/details/7562926可以运行1.HUD流程图：完整源代码如下：/*OSG中的HUD，文字总是显示在最前面*/#include#include#include#include#include#include#... 阅读全文

posted @ 2015-11-11 21:42 止战阅读(1014) 评论(0) 推荐(0) 编辑

关于c中的%x及其它格式化符

摘要：原文：http://blog.csdn.net/lincyang/article/details/6252443格式化：%x表示按16进制输出；int a = 16;%02x:输出10；%03x:输出：010；%04x:输出：0010；下文转载：http://tech.e800.com.cn/art... 阅读全文

posted @ 2015-11-01 17:51 止战阅读(2041) 评论(0) 推荐(0) 编辑

11 2015 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论