2016年3月2日

机器学习评价指标大汇总

摘要: 在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。 阅读全文

posted @ 2016-03-02 12:35 无影随想 阅读(43686) 评论(2) 推荐(5) 编辑

2016年1月21日

放回采样最终不同样本数量

摘要: 机器学习很多场景中会用到放回采样,比如bagging方法。 阅读全文

posted @ 2016-01-21 10:28 无影随想 阅读(1246) 评论(0) 推荐(0) 编辑

2016年1月13日

从数学分析的角度来看Softmax

摘要: Softmax是机器学习中最常用的输出函数之一,网上有很多资料介绍它是什么以及它的用法,但却没有资料来介绍它背后的原理。本文首先简单地介绍一下Softmax,然后着重从数学分析的角度来分析一下它背后的原理。 阅读全文

posted @ 2016-01-13 11:01 无影随想 阅读(1356) 评论(0) 推荐(0) 编辑

2016年1月8日

归一化与标准化

摘要: 在机器学习和数据挖掘中,经常会听到两个名词:归一化(Normalization)与标准化(Standardization)。它们具体是什么?带来什么益处?具体怎么用?本文来具体讨论这些问题。 阅读全文

posted @ 2016-01-08 10:31 无影随想 阅读(9101) 评论(0) 推荐(0) 编辑

2016年1月6日

如何处理数据中的缺失值

摘要: 现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。 阅读全文

posted @ 2016-01-06 13:52 无影随想 阅读(3661) 评论(0) 推荐(0) 编辑

2016年1月5日

如何解决机器学习中数据不平衡问题

摘要: 这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 阅读全文

posted @ 2016-01-05 09:57 无影随想 阅读(32568) 评论(0) 推荐(3) 编辑

2013年7月22日

LevelDb

摘要: LevelDb 是 Google 开源的持久化 KV 单机存储引擎。针对存储面对的普遍随机 IO 问题,leveldb 采用了 merge-dump 的方式,将逻辑场景的写请求转换成顺序写log 和写 memtable 操作,由后台进程将 memtable 持久化成 sstable。对于读请求,随机 IO 还是无法避免,但它设计了一系列策略来保证读的效率。 阅读全文

posted @ 2013-07-22 14:00 无影随想 阅读(5394) 评论(2) 推荐(2) 编辑

导航