摘要: Bagging策略 1.总样本数量是n个,从样本中重采样(有放回的)选出n个样本 ,会有约33.2%的样本不会被抽到 2.在所有属性上对这n个样本建立分类器(比如决策树,svm,lr) 3.重复步骤1和2m次,建立了m个分类器 4.将数据放在这m个分类器上,根据这m个分类器的投票结果决定数据属于哪一 阅读全文
posted @ 2017-03-01 21:30 fisherinbox 阅读(3890) 评论(0) 推荐(0) 编辑
摘要: 1.信息增益的定义,也就是互信息 2.信息增益的推导 由公式即可得到信息增益 信息增益存在偏向于选择取值较多的特征的问题,信息增益比可以对这一问题进行修正 3.信息增益比 4.基尼指数,基尼指数越大,样本集合的不确定性也就越大,与熵类似 5.ID3算法,使用信息增益作为特征选择准则,递归选择信息增益 阅读全文
posted @ 2017-03-01 21:14 fisherinbox 阅读(178) 评论(0) 推荐(0) 编辑
摘要: Lagrange的推导,为什么是先求最大值再求最小值 当b,w不满足条件时,也就是说这一项是大于零的,因为an也是非负的,所以后面这一项是始终大于等于零的,如果求最大值会趋向于无穷大。 当b,w满足条件时,这一项是小于等于零的,因为an也是非负的,所以后面这一项是始终小于等于零的,如果求最大值则是零 阅读全文
posted @ 2017-03-01 16:57 fisherinbox 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 赛题与数据介绍 给定查询和用户信息后预测广告点击率 搜索广告是近年来互联网的主流营收来源之一。在搜索广告背后,一个关键技术就是点击率预测 pCTR(predict the click-through rate),由于搜索广告背后的经济模型(economic model )需要pCTR的值来对广告排名 阅读全文
posted @ 2017-02-08 12:46 fisherinbox 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 面试题67 机器人的运动范围 题意: 地上有一个m行和n列的方格。一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子。 例如,当k为18时,机器人能够进入方格(35,37),因为3+5+3+7 = 18。但是,它不能进入 阅读全文
posted @ 2017-02-02 14:50 fisherinbox 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 日志在四台不同主机上模拟实际生产环境,hive并不适合在线服务,因为调用mapreduce任务比较慢。 出现的坑 1.如何把gbk转换成utf-8,解决方法是在flume配置文件中inputcharset=gbk,outputcharset=utf-8 2.kafka partition :为了均衡 阅读全文
posted @ 2016-12-21 10:30 fisherinbox 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.sina.com.cn/s/blog_5252f6ca0102uy47.html 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US" 阅读全文
posted @ 2016-12-08 21:44 fisherinbox 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 请确保该二进制存储在指定的路径中 或者调试它以检查该二进制或相关的 .dll 文件是否有问题 解决办法将程序所需的dll文件复制到 C:\Windows\SysWOW64(64位系统)目录下 阅读全文
posted @ 2016-11-24 16:21 fisherinbox 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 维基百科 :https://zh.wikipedia.org/wiki/%E7%89%9B%E9%A1%BF%E6%B3%95 下面的博客推导的非常详细,值得一看 转自: http://blog.csdn.net/itplus/article/details/21896453 二次函数的泰勒展开与其 阅读全文
posted @ 2016-11-18 15:18 fisherinbox 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 刷题备忘录,for bug-free 招行面试题--求无序数组最长连续序列的长度,这里连续指的是值连续--间隔为1,并不是数值的位置连续 问题: 给出一个未排序的整数数组,找出最长的连续元素序列的长度。 如: 给出[100, 4, 200, 1, 3, 2], 最长的连续元素序列是[1, 2, 3, 阅读全文
posted @ 2016-11-17 11:46 fisherinbox 阅读(906) 评论(0) 推荐(0) 编辑