2018年11月25日
摘要: 1、问题 一个有意思的业务题,给一批用户数据,每条数据由网络IP和该条上网记录的时时间戳组成;如何设计可用特征,用于区分此批数据是属于网吧用户还是家庭用户? 2、部分思路 (1)最直观的可从原始数据中获取用户上网集中时间情况,一般而言,家庭用户较为集中在某些时间点(如晚上),而网吧用户则全天候都很有 阅读全文
posted @ 2018-11-25 20:11 知识的容量瓶 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 一、K-Means算法原理 二、Hadoop实现K-Means的做法 1、伪代码 (1)主要参数 输入: 参数0--存储样本数据的文本文件inputfile; 参数1--存储样本数据的SequenceFile文件inputPath; 参数2--存储质心数据的SequenceFile文件centerP 阅读全文
posted @ 2018-11-25 19:09 知识的容量瓶 阅读(1202) 评论(0) 推荐(0) 编辑
  2018年11月8日
摘要: 暑假,来到爸妈所在的城市,想象着如何精打细算的利用好这短短的个把月时间,找了许多实习工作,但大都因为我实习时间过短而一一回绝,日子一天一天在流淌着,由于我急于找活儿,所以暂时选择了去发传单这一工作,而就是因为这一次发单的机缘,让我在后续经历过了这样的一次传销活动。 这是一场没有硝烟的战争,而我只抢救 阅读全文
posted @ 2018-11-08 15:32 知识的容量瓶 阅读(399) 评论(4) 推荐(2) 编辑
  2018年11月7日
摘要: 一、深度学习架构中权重(weight)的物理意义 权重的学习可解释为如何对原始资料的信息进行特征转换,亦可理解为编码学习。 好的权重的特点,能够较好的保存原始资料的特征,并且能够较轻易的重建原始资料。 二、Information-Preserving Neural Network 1、将原始资料进行 阅读全文
posted @ 2018-11-07 21:32 知识的容量瓶 阅读(843) 评论(0) 推荐(0) 编辑
  2018年11月6日
摘要: 一、深度学习常见的一些挑战 1、如何决定深层神经网络的架构(网络层数和神经元数目) 2、如何解决模型复杂度过高问题 3、如何实现深层神经网络的最优化问题 4、如何结果巨大计算量的问题 二、逐层预训练(pre-training) 启发式思路:一个深层网络如果需要成功学习好,那么initial时的wei 阅读全文
posted @ 2018-11-06 20:55 知识的容量瓶 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 1、basic choice (1)通过一定的方式来缩小权重 (2)通过一定的方式将部分权重置为0 (3)weight-elimination regulizer 2、Early Stoppping Early stopping方法可以控制VC dimension的大小,具体可结合validatio 阅读全文
posted @ 2018-11-06 18:07 知识的容量瓶 阅读(594) 评论(0) 推荐(0) 编辑
  2018年11月5日
摘要: 1、查看用户身份 a. 查看最初登陆用户的身份信息:who am i b. 查看当前用户名:whoami c. 查看当前用户的详细身份:id 用户id:0 用户:root; 组id:0 组名:root; groups=0(root),1(bin),2(daemon),3(sys),4(adm),6( 阅读全文
posted @ 2018-11-05 16:16 知识的容量瓶 阅读(149) 评论(0) 推荐(0) 编辑
  2018年11月2日
摘要: 一、Out of bag estimate(OOB) 1、OOB sample number RF是bagging的一种,在做有放回的bootstrap时,由抽样随机性可得到(其中1/e可由高数中的洛必达法则得到): RF中每次抽样N个样本训练每一棵decision tree(gt),对于此棵树gt 阅读全文
posted @ 2018-11-02 11:49 知识的容量瓶 阅读(3003) 评论(0) 推荐(1) 编辑
  2018年10月31日
摘要: 一、SVM的常用目标函数形式 soft margin svm可表示为: 其中,C表示惩罚系数;C越大,表示对margin越严格,即对不满足约束的样本数要更少; 反之,C越小,表示对margin越宽松,即可接受不满足约束的样本数越多。 例如下图所示: 二、SVM和logistic regression 阅读全文
posted @ 2018-10-31 21:47 知识的容量瓶 阅读(1249) 评论(0) 推荐(0) 编辑
  2018年10月30日
摘要: 1、历史来源 线性回归这个概念是由达尔文的表弟高尔顿在研究父代与子代身高关系的时候提出的,高尔顿搜集了1078对父亲及其儿子的身高数据,用于研究其两者的关系,他画出了该组数据的散点图,发现这些样本点看起来分布在某条直线的周围,因此他使用一条直线来拟合这些样本点。 2、原理 通过线性方程来对目标值进行 阅读全文
posted @ 2018-10-30 11:11 知识的容量瓶 阅读(689) 评论(0) 推荐(0) 编辑