随笔分类 - 特征工程
摘要:基于region proposal的RCNN系列:RCNN、Fast RCNN、Faster RCNN 基于区域划分的YOLO、SSD 基于强化学习的AttentionNet等,还有最新的Mask RCNN。 我们将用一周时间先详细介绍每个模型然后通过Tensorflow跑一遍模型。 说到基于reg
阅读全文
摘要:1)RGB颜色空间 RGB(红绿蓝)是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采用RGB颜色空间,因为它的细节难以进行数字化的调整。它将色调,亮度,饱和度三个量放在一起表示,很难分开。它是最通用的面向硬件的彩色模型。该模型用于彩色监视器和一大类彩色视频摄像。 2)CMY/
阅读全文
摘要:“Xavier”初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》,可惜直到近两年,这个方法才逐渐得到更多人的应用和认可。 为
阅读全文
摘要:TensorBoard是TensorFlow下的一个可视化的工具,能够帮助我们在训练大规模神经网络过程中出现的复杂且不好理解的运算。 TensorBoard能展示你训练过程中绘制的图像、网络结构等。 1.构建简单的TensorBoard日志输出 import tensorflow as tf inp
阅读全文
摘要:整个优化系列文章列表: Deep Learning 之 最优化方法 Deep Learning 最优化方法之SGD Deep Learning 最优化方法之Momentum(动量) Deep Learning 最优化方法之Nesterov(牛顿动量) Deep Learning 最优化方法之AdaG
阅读全文
摘要:(一) 特征工程需要根据实际的业务场景进行处理 数据与特征处理 1. 数据选择/清洗/采样 2. 数值型/类别型/日期型/文本型特征处理 3. 组合特征处理 特征选择 1. Filter/Wrapper/Embedded 三种特征选择方式及开发包/案例 特征:数据中抽取出来的对结果预测有用的信息 特
阅读全文
摘要:在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义数据特征会直接影响
阅读全文
摘要:前言 XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。XGBoost是一种提升树模型,它是将许多树模型集成在一起,形成一个很强的分类器,所用到的树模型则是CART回归树模型。 CART CART回归树是假设树的结构为二叉树,通过不
阅读全文
摘要:Ensemble learning 中文名叫做集成学习,它并不是一个单独的机器学习算法,而是将很多的机器学习算法结合在一起,我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中,个体学习器都相同,那么这些个体学习器可以叫做“基学习器”。 个体学习器组合在一起形成的集成学习,常常能够使得泛化性
阅读全文
摘要:class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True) 参数: missing_values: integer or “NaN”, optiona
阅读全文
摘要:https://scikit-learn.org/stable/modules/classes.html
阅读全文
摘要:重要内容简述: 从ID3到C4.5再到CART 在分类树问题中(注意ID3和C4.5只能解决分类问题,CART是既可以解决分类问题,也可以解决回归问题):最主要的是要进行分类的最优特征和最优切分点的选择,为了这两个量,算法不断的计算每一层的最优特征和对应下的最优切分点 随机森林 属于集成学习的范畴,
阅读全文
摘要:剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪枝(
阅读全文
摘要:from sklearn.feature_selection import SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.
阅读全文
摘要:Categorical特征常被称为离散特征、分类特征,数据类型通常是object类型,而我们的机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。 Categorical特征又有两类,我们需要理解它们的具体含义并进行对应的转换。 Ordinal 类型:这种
阅读全文
摘要:1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N
阅读全文
摘要:GridSearchCV 简介: GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。 但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算
阅读全文
摘要:1. 简介 逻辑回归和Softmax回归是两个基础的分类模型,虽然听名字以为是回归模型,但实际我觉得他们也有一定的关系。逻辑回归,Softmax回归以及线性回归都是基于线性模型,它们固定的非线性的基函数(basis function) 的线性组合,形式如下: 2.逻辑回归谈谈逻辑回归,Softmax
阅读全文
摘要:Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处: 直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。 可以结合grid search对参数进行选择。 在下面的例子中,我们使用决策
阅读全文