摘要:
注:本文是 "人工智能研究网" 的学习笔记 模型验证方法一览 名称 | 模块 | 通过交叉验证计算得分 | model_selection.cross_val_score(estimator, X) 对每个输入点产生交叉验证估计 | model_selection.cross_val_predict 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 K折交叉验证 模块 | | sklearn.model_selection.KFold | sklearn.model_selection.GroupKFold | sklearn.model_selection.StratifiedKFold | 核心思 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。 使用以下的方法获得学习器模型的参数 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 标称型特征编码(Encoding categorical feature) 有些情况下,某些特征的取值不是连续的数值,而是离散的标称变量(categorical)。 比如一个人的特征描述可能是下面的或几种: 这样的特征可以被有效的编码为整型特征值(inte 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 规范化(Normalization) Normalization: scaling individual to have unit norm 规范化是指,将单个的样本特征向量变换成具有单位长度(unit norm)的特征向量的过程。当你要使用二次形式(qu 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 常用的数据预处理方式 1. Standardization, or mean removal and variance scaling 2. Normalization: scaling individual to have unit norm 3. Bi 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 sklearn.feature_extaction模块提供了从原始数据如文本,图像等中抽取能够被机器学习算法直接处理的特征向量。 Feature extraction和Feature selection是不同的:前者将任意的数据变换成机器学习算法可用的数值 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 Pipeline:chaining(链接)estimators Pipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection norm 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 数据集一览 类型 | 获取方式 | 自带的小数据集 | sklearn.datasets.load_ 在线下载的数据集 | sklearn.datasets.fetch_ 计算机生成的数据集 | sklearn.datasets.make_ svmligh 阅读全文
摘要:
注:本文是 "人工智能研究网" 的学习笔记 计算机生成的数据集 用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合。 数据集 | 简介 | make_blobs | 多类单标签数据集,为每个类分配一个或者多个正态分布的点集,提供了控制每个数据点的参数:中心点(均值),标准差, 阅读全文