随笔档案「2020年9月」 - 小小喽啰

电信用户建模

摘要：数据来源电信用户数据：https://www.datafountain.cn/dataSets/35/details# 1.数据概述与可视化 # 模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt im 阅读全文

posted @ 2020-09-25 15:16 小小喽啰阅读(333) 评论(0) 推荐(0)

df.pop() 删除某一列（不能是多列）

摘要：df.pop() 可以使用这个来删除某一列（不能是多列），只有一个参数，就是列名，可以是str类型，函数返回的是被删除的列，df直接是删除后的df，不需要我们处理我们建模时，需要单独保留某个特征，比如y值，我们就可以用y=xx.pop(label)了，很实用。例子 df = pd.DataFra 阅读全文

posted @ 2020-09-25 14:06 小小喽啰阅读(3144) 评论(0) 推荐(0)

Titanic（python）

摘要：数据集中共有12个字段，PassengerId：乘客编号，Survived：乘客是否存活，Pclass：乘客所在的船舱等级；Name：乘客姓名，Sex：乘客性别，Age：乘客年龄，SibSp：乘客的兄弟姐妹和配偶数量，Parch：乘客的父母与子女数量，Ticket：票的编号，Fare：票价，Cabi 阅读全文

posted @ 2020-09-24 17:01 小小喽啰阅读(579) 评论(0) 推荐(0)

机器学习4个常用超参数调试方法

摘要：ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。超参数调优的越好，得到的模型就越好。调优超参数可能是非常乏味和困难的，更像是一门艺术而不是科学。超参数超参数是在建立模型时用于控制算法行为的参数。这些参数不能从常规训练过程中获得。在对模型进行训练之前，需要对它阅读全文

posted @ 2020-09-23 18:53 小小喽啰阅读(2535) 评论(0) 推荐(0)

np.unique() 和 df.nunique() 获取唯一值

摘要：一、np.unique() 查找数组的唯一元素。返回数组的排序后的唯一元素。除独特元素外，还有三个可选输出：输入数组的索引，这些索引给出唯一值重建输入数组的唯一数组的索引输入数组中每个唯一值出现的次数 numpy.unique（ar，return_index = False，return_i 阅读全文

posted @ 2020-09-23 15:58 小小喽啰阅读(6715) 评论(0) 推荐(0)

pd.select_dtypes 选取特定数据类型的列

摘要：pd.select_dtypes 可以根据数据类型选取特征，这对于我们建模时非常有用，下面来看看怎么使用 DataFrame.select_dtypes(include=None, exclude=None) 参数 include, exclude：scalar or list-like，标量或类似阅读全文

posted @ 2020-09-23 15:18 小小喽啰阅读(4206) 评论(0) 推荐(2)

pd.to_timedelta() 将参数转换为timedelta计算时间差

摘要：pd.to_timedelta 将参数转换为timedelta，Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 pandas.to_timedelta(arg, unit 阅读全文

posted @ 2020-09-22 18:58 小小喽啰阅读(7167) 评论(0) 推荐(0)

sklearn.preprocessing.PolynomialFeatures 生成多项式和交互特征

摘要：sklearn.preprocessing.PolynomialFeatures 生成多项式和交互特征。生成由度小于或等于指定度的特征的所有多项式组合组成的新特征矩阵。例如，如果输入样本是二维且格式为[a，b]，则2阶多项式特征为[1，a，b，a ^ 2，ab，b ^ 2] class sklear 阅读全文

posted @ 2020-09-22 18:28 小小喽啰阅读(1136) 评论(2) 推荐(1)

np.percentile 和df.quantile 分位数

摘要：np.percentile numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False) 参数： a : array，用来算分位数的对象，可以是多维阅读全文

posted @ 2020-09-22 16:50 小小喽啰阅读(6811) 评论(0) 推荐(0)

建模技巧

摘要：本文目录 1.数据预处理 2.特征构建 3.特征选择 4.LightGBM模型构建 5.自动调参方法一.数据预处理 1.1 离群点处理 Tukey Method: 一种利用数据四分位差的检测方法。通过计算特征的 IQR 四分位差，得到 outlier_step=1.5*IQR，如果值大于(上四分位阅读全文

posted @ 2020-09-22 15:52 小小喽啰阅读(823) 评论(0) 推荐(0)

np.where() 条件索引和SQL的if用法一样，或者是给出满足条件的坐标集合

摘要：np.where() numpy.where(condition[, x, y]) 参数： condition：array_like, bool，如果为True，则产生x，否则产生y x, y：array_like，从中选择的值 numpy.where() 有两种用法： 1. np.where(co 阅读全文

posted @ 2020-09-22 14:56 小小喽啰阅读(665) 评论(0) 推荐(0)

np.triu_indices_from() 返回方阵的上三角矩阵的索引

摘要：np.triu_indices_from() 返回方阵的上三角矩阵的索引 numpy.triu_indices_from（arr，k = 0 ）参数： arr ：ndarray，shape（N，N） k： int，可选，对角线偏移例子： import numpy as np a = np.arr 阅读全文

posted @ 2020-09-22 14:17 小小喽啰阅读(3505) 评论(0) 推荐(0)

ax.set_title() 和 plt.title()，以及df,plot(title='')

摘要：区别 plt.XX之类的是函数式绘图，通过将数据参数传入plt类的静态方法中并调用方法，从而绘图。fig,ax=plt.subplots()是对象式编程，这里plt.subplots()是返回一个元组，包含了figure对象(控制总体图形大小)和axes对象(控制绘图，坐标之类的)。进行对象式绘图，阅读全文

posted @ 2020-09-22 10:55 小小喽啰阅读(16908) 评论(0) 推荐(1)

信用卡模型（三）

摘要：第三版本我们前面已经有两个版本了，都涉及到woe转换之类的，现在我们尝试一下xgboost版本的，不需要做woe转换 import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e 阅读全文

posted @ 2020-09-21 18:27 小小喽啰阅读(708) 评论(0) 推荐(0)

df.drop_duplicates()返回删除重复行（或者列）的DataFrame

摘要：drop_duplicates() 可以删除重复的行，返回的是删除重复行后的df DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) 参数 subset：column labe 阅读全文

posted @ 2020-09-21 10:59 小小喽啰阅读(4359) 评论(0) 推荐(0)

df.dropna() 过滤数据中的缺失数据

摘要：pd.dropna 删除缺失的值，过滤数据中的缺失数据，缺失数据在pandas中用NaN标记 DataFrame.dropna（axis = 0，how = 'any'，thresh = None，subset = None，inplace = False）参数： axis：{0 or ‘inde 阅读全文

posted @ 2020-09-18 16:18 小小喽啰阅读(3066) 评论(0) 推荐(0)

df.fillna() 缺失值填充

摘要：pd.DataFrame.fillna() 使用指定的方法填充NA / NaN值 DataFrame.fillna（value = None，method = None，axis = None，inplace = False，limit = None，downcast = None）参数： val 阅读全文

posted @ 2020-09-18 15:40 小小喽啰阅读(7406) 评论(0) 推荐(1)

df.sort_values() 按照某列排序

摘要：sort_value sort_values，按照某一列的大小进行排序，（沿任一轴的值排序） DataFrame.sort_values（by，axis = 0，ascending = True，inplace = False，kind = ' quicksort '，na_position = ' 阅读全文

posted @ 2020-09-18 15:12 小小喽啰阅读(19234) 评论(0) 推荐(0)

df.set_index() 使用现有列设置单（复合）索引，df.reset_index()还原索引

摘要：set_index DataFrame可以通过set_index方法，可以使用现有列设置单索引和复合索引 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) 参数： key 阅读全文

posted @ 2020-09-18 14:38 小小喽啰阅读(9373) 评论(0) 推荐(0)

df.rename() 重新命名列名

摘要：rename方法作用：复制 DataFrame并对其索引index和列标签columns进行赋值。如果希望就地修改某个数据集，传入inplace=True即可 DataFrame.rename(**kwargs) 参数： mapper：dict-like or function，这个字段我也不是很阅读全文

posted @ 2020-09-18 10:37 小小喽啰阅读(15224) 评论(0) 推荐(1)

阿里云-建模比赛

摘要：数据地址：https://tianchi.aliyun.com/competition/entrance/531830/information 1.导入模块和数据 import pandas as pd import numpy as np import matplotlib.pyplot as p 阅读全文

posted @ 2020-09-14 17:20 小小喽啰阅读(487) 评论(0) 推荐(0)

sklearn.feature_selection.SelectKBest k 个最高分的特征

摘要：sklearn.feature_selection.SelectKBest 根据某中检验方法，比如chi2 啦，选择k个最高分数的特征，属于单变量特征选择的一种，可以看做是一个估计器的预处理步骤官网地址：https://scikit-learn.org/stable/modules/generat 阅读全文

posted @ 2020-09-14 14:48 小小喽啰阅读(1971) 评论(0) 推荐(0)

阿里云的金融风控-贷款违约预测_模型融合

摘要：模型融合 5.1 学习目标将之前建模调参的结果进行模型融合。尝试多种融合方案，提交融合结果并打卡。（模型融合一般用于A榜比赛的尾声和B榜比赛的全程） 5.2 内容介绍模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差阅读全文

posted @ 2020-09-11 17:52 小小喽啰阅读(935) 评论(3) 推荐(0)

阿里云的金融风控-贷款违约预测_建模和调参

摘要：建模与调参 4.1 学习目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程 4.2 内容介绍逻辑回归模型：理解逻辑回归模型；逻辑回归模型的应用；逻辑回归的优缺点；树模型：理解树模型；树模型的应用；树模型的优缺点；集成模型基于bagging思想的集成模阅读全文

posted @ 2020-09-11 17:37 小小喽啰阅读(1476) 评论(0) 推荐(0)

阿里云的金融风控-贷款违约预测_特征工程

摘要：特征工程项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 3.1 学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编阅读全文

posted @ 2020-09-11 16:15 小小喽啰阅读(2004) 评论(0) 推荐(0)

阿里云的金融风控-贷款违约预测_数据分析

摘要：一、赛题数据数据大家可以到官网去下载：https://tianchi.aliyun.com/competition/entrance/531830/information需要报名后才可以下载数据赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超阅读全文

posted @ 2020-09-11 15:21 小小喽啰阅读(3815) 评论(0) 推荐(0)

XGBoost 原生版本和sklearn接口版本的使用（泰坦尼克数据）

摘要：2021.3.11补充：官网地址：https://xgboost.readthedocs.io/en/latest/python/python_api.html DMatrix 是XGBoost中使用的数据矩阵。DMatrix是XGBoost使用的内部数据结构，它针对内存效率和训练速度进行了优化阅读全文

posted @ 2020-09-10 17:02 小小喽啰阅读(4403) 评论(0) 推荐(0)

XGBoost基本原理

摘要：目录一、XGBoost原理 1.1. 学习目标 1.2. 节点的划分 1.2.1 基本精确的贪心算法（Basic Exact Greedy Algorithm） 1.2.2 近似算法 1.2.3 带权重的分位数草图（Weighted Quantile Sketch）二. XGBoost的优缺点：阅读全文

posted @ 2020-09-10 14:59 小小喽啰阅读(2055) 评论(0) 推荐(2)

GBDT算法原理

摘要：目录一、GBDT 二. GBDT回归树基本模版三. GBDT的算法描述 3.1 GBDT的损失函数 3.1.1 梯度提升回归树损失函数介绍 3.1.2 梯度提升分类树损失函数介绍 3.2 GBDT回归算法描述 3.2.1 平方损失GBDT算法描述 3.2.2 绝对损失GBDT算法描述 3.2.3 阅读全文

posted @ 2020-09-10 10:14 小小喽啰阅读(1771) 评论(0) 推荐(0)

np.log 和math.log的底数是什么，默认都是e

摘要：np.log() 一直分不清楚log到底是以什么为底，就写下这个作为备忘看到没，是以e为底的，如果是其他的就logn import numpy as np print( 'np.e:',np.e) print( 'np.log([100,10000,10000]:',np.log([100,100 阅读全文

posted @ 2020-09-09 17:47 小小喽啰阅读(8684) 评论(0) 推荐(1)

AdaBoosts算法原理

摘要：我们带着问题去思考：弱学习器的权重系数 α 如何计算？样本点的权重系数 w 如何更新？学习的误差率 e 如何计算？最后使用的结合策略是什么？一、AdaBoost基本原理介绍 1,1AdaBoost分类问题以二分类为例，假设给定一个二类分类的训练数据集，其中表示样本点，表示样本对应的类别，阅读全文

posted @ 2020-09-09 17:38 小小喽啰阅读(1095) 评论(0) 推荐(1)

嵌套交叉验证

摘要：嵌套交叉验证(nested cross validation)选择算法（外循环通过k折等进行参数优化，内循环使用交叉验证），对特定数据集进行模型选择。Varma和Simon在论文Bias in Error Estimation When Using Cross-validation for Mode 阅读全文

posted @ 2020-09-09 11:00 小小喽啰阅读(3229) 评论(0) 推荐(1)

sklearn.model_selection.RandomizedSearchCV随机搜索超参数

摘要：GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，它要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。这也是我通常不会使用GridSearchCV的原因，一般会采用后一种RandomizedSearchCV随机参数搜索的方法 Ra 阅读全文

posted @ 2020-09-08 18:58 小小喽啰阅读(4291) 评论(0) 推荐(0)

网格搜索的两个用法

摘要：1.两层for循环暴力检索 # naive grid search implementation from sklearn.datasets import load_iris from sklearn.svm import SVC from sklearn.model_selection impor 阅读全文

posted @ 2020-09-08 17:48 小小喽啰阅读(591) 评论(0) 推荐(0)

sklearn.model_selection.validation_curve 验证曲线

摘要：验证曲线是用来提高模型的性能，验证曲线和学习曲线很相近，不同的是这里画出的是不同参数下模型的准确率而不是不同训练集大小下的准确率，主要用来调参，validation_curve方法使用采样k折交叉验证来评估模型的性能。 sklearn.model_selection.validation_curve 阅读全文

posted @ 2020-09-08 16:52 小小喽啰阅读(1251) 评论(0) 推荐(0)

sklearn.model_selection.learning_curve学习曲线

摘要：这个函数的作用为：对于不同大小的训练集，确定交叉验证训练和测试的分数。一个交叉验证发生器将整个数据集分割k次，分割成训练集和测试集。不同大小的训练集的子集将会被用来训练评估器并且对于每一个大小的训练子集都会产生一个分数，然后测试集的分数也会计算。然后，对于每一个训练子集，运行k次之后的所有这些分数将阅读全文

posted @ 2020-09-08 16:46 小小喽啰阅读(1412) 评论(0) 推荐(0)

sklearn.pipeline.Pipeline管道简化工作流

摘要：Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流 Pipeline对象接收元组构成的列表作为输入，每个元组第一个值作为变量名，元组第二个元素是sklearn中的transformer或Estimator。管道中间每一步由sklearn 阅读全文

posted @ 2020-09-08 15:47 小小喽啰阅读(357) 评论(0) 推荐(0)

什么时候需要做数据标准化

摘要：哪些模型对标准化处理比较敏感？机器学习中有部分模型是基于距离度量进行模型预测和分类的。由于距离对特征之间不同取值范围非常敏感，所以基于距离读量的模型是十分有必要做数据标准化处理的。最典型基于距离度量的模型包括k近邻、kmeans聚类、感知机和SVM。另外，线性回归类的几个模型一般情况下也是需要做阅读全文

posted @ 2020-09-08 15:13 小小喽啰阅读(2307) 评论(0) 推荐(0)

决策树_信息熵

摘要：决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型决策树的一般流程(1) 收集数据：可以使用任何方法。(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。(3) 分析数据：可以阅读全文

posted @ 2020-09-08 10:55 小小喽啰阅读(634) 评论(0) 推荐(0)

KNN_01

摘要：最简单的KNN分类：即是每个测试数据逐个去减训练集数据，使用的是欧氏距离，然后选取k个距离最小的数据作为邻居，看看这几个邻居属于那种类别最多，就属于哪种类别 k-近邻算法优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。 k-近邻算法的一般阅读全文

posted @ 2020-09-08 10:48 小小喽啰阅读(229) 评论(0) 推荐(0)

XGBoost 参数说明

摘要：一、XGBoost参数 xgboost参数可以分为三种类型：通用参数、booster参数以及学习目标参数 General parameters：参数控制在提升（boosting）过程中使用哪种booster，常用的booster有树模型（tree）和线性模型（linear model）。 Boost 阅读全文

posted @ 2020-09-07 19:01 小小喽啰阅读(2806) 评论(0) 推荐(0)

sklearn.decomposition.PCA 主成分分析参数详解

摘要：官网：https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html 官网语法如下： class sklearn.decomposition.PCA(n_components=None, *, copy 阅读全文

posted @ 2020-09-07 17:01 小小喽啰阅读(5121) 评论(0) 推荐(1)

np.mat()将数据转化为矩阵

摘要：np.mat(a) 可将a转化为矩阵，a的类型可以是df.values,数组，list等等，用mat函数转换为矩阵之后可以才进行一些线性代数的操作 import numpy as np np.eye(5) ''' array([[1., 0., 0., 0., 0.], [0., 1., 0., 0 阅读全文

posted @ 2020-09-07 15:24 小小喽啰阅读(2710) 评论(0) 推荐(0)

PCA主成分分析（降维）（转）

摘要：2021-04-26增加一、PCA所需知识 1. 向量表示与基变换我们先来介绍些线性代数的基本知识。 1.1 内积两个向量的 A 和 B 内积我们知道形式是这样的：内积运算将两个向量映射为实数，其计算方式非常容易理解，但我们无法看出其物理含义。接下来我们从几何角度来分析，为了简单起见，我们假阅读全文

posted @ 2020-09-07 15:19 小小喽啰阅读(907) 评论(0) 推荐(0)

方阵（方块矩阵）

摘要：方块矩阵，或简称方阵，是行数及列数皆相同的矩阵所有正交矩阵都是方块矩阵单位矩阵是方块矩阵环的单位元阅读全文

posted @ 2020-09-07 14:53 小小喽啰阅读(1030) 评论(0) 推荐(0)

单位矩阵

摘要：一、单位矩阵的定义主对角线上的元素都为1，其余元素全为0的n阶矩阵称为n阶单位矩阵，记为或，通常用 I 或 E 来表示在线性代数中，大小为n的单位矩阵是主对角线上均为1，其余地方都是0的n x n的方阵，它用表示：同时单位矩阵也可以简单地记为一个对角线矩阵：二、单位矩阵的性质根据矩阵乘法的阅读全文

posted @ 2020-09-07 14:49 小小喽啰阅读(5036) 评论(0) 推荐(0)

向量的内积（也叫点积）

摘要：代数定义：设二维空间内有两个向量和，定义它们的数量积（又叫内积、点积）为以下实数：更一般地，n维向量的内积定义如下：其中两个维度相同的向量的内积也可以表示为：几何定义（只适用于2维和3维空间）：运算律：交换律：分配律：结合律：，其中m是实数公式是很容易理解，但是意义呢？内积运算阅读全文

posted @ 2020-09-07 13:49 小小喽啰阅读(28262) 评论(0) 推荐(0)

svm

摘要：一、SVM 支持向量机（SupportVector Machines）的主要思想是：SVM试图寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是不是很敷衍地简单的分开，而是尽最大的努力使正例和反例之间的间隔margin最大。这样它的分类结果才更加可信，而且对于未知的新样本才有很好阅读全文

posted @ 2020-09-07 10:38 小小喽啰阅读(270) 评论(0) 推荐(0)

python 的open函数，文件读取等功能

摘要：函数语法： open(name[, mode[, buffering]]) 默认用法如下： open #<function io.open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd= 阅读全文

posted @ 2020-09-04 17:16 小小喽啰阅读(788) 评论(0) 推荐(0)

np.tile() 重复生成数组

摘要：np.tile(a,n) 功能是将a(a可以不是数组）重复n次，构成一个新的数组，n可以是int，或者是tuple 1.n是int from numpy import * a=[0,1,2] tile(a,2) #array([0, 1, 2, 0, 1, 2]) 2.n是tuple（i,j）反正阅读全文

posted @ 2020-09-04 15:22 小小喽啰阅读(738) 评论(0) 推荐(0)

KNN（K近邻法）算法原理

摘要：一、K近邻概述 k近邻法（k-nearest neighbor, kNN）是一种基本分类与回归方法（有监督学习的一种），KNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k（k一般不超过20）个最相邻的样本中的大多数属于某一个类别，则该样本也阅读全文

posted @ 2020-09-04 10:45 小小喽啰阅读(3495) 评论(0) 推荐(0)

class sklearn.neighbors.KNeighborsClassifier K近邻（KNN）参数详解

摘要：k近邻法（k-nearest neighbor, kNN）是一种基本分类与回归方法，其基本做法是：给定测试实例，基于某种距离度量找出训练集中与其最靠近的k个实例点，然后基于这k个最近邻的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这k个实例中出现最多的标记类别作为预测结果；在回归任务阅读全文

posted @ 2020-09-04 09:57 小小喽啰阅读(5605) 评论(0) 推荐(1)

建模常用的自定义函数(ks,auc等）

摘要：1.统计拆分训练集测试集之后的分布 def summary(data_train, data_test, y): ''' 函数目标：统计数据拆分训练集和测试集之后的分布（如样本数量，坏账率之类的）变量： data_train:训练集（包括label） data_test:测试集（包括label), 阅读全文

posted @ 2020-09-03 17:43 小小喽啰阅读(1241) 评论(0) 推荐(0)

L1和L2正则化

摘要：一、损失函数的l1、l2正则化机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ℓ1-norm 和ℓ2-norm，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对阅读全文

posted @ 2020-09-03 16:11 小小喽啰阅读(481) 评论(0) 推荐(0)

||x|| 范数

摘要：经常会遇到一些函数表达式里面有|| ||，有的甚至带有上下标，不明白这个是什么意思，查阅资料才明白里面的意思，下面解释一些这几种用法 1.L1-norm（L1范数） X的 L1-norm 的定义为：两个向量或矩阵的 L1-norm 为在计算机视觉科学家眼中，它叫做绝对偏差和（Sum of A 阅读全文

posted @ 2020-09-03 15:21 小小喽啰阅读(1204) 评论(0) 推荐(1)

损失函数

摘要：一、损失函数和代价函数、目标函数的区别和练习在机器学习中，经常会碰到 Loss Function、Cost Function 和 Objective Function，这三个术语，我们要了解他们之间的区别和联系。（1）损失函数（Loss Function）通常是针对单个训练样本而言，给定一个模型阅读全文

posted @ 2020-09-03 12:18 小小喽啰阅读(1369) 评论(0) 推荐(0)

pd.Categorical.from_codes()用于类别替换

摘要：原来版本是pd.Factor，新版本换成了pd.Categorical.from_codes()，功能都一样；实例： pd.Categorical.from_codes(iris.target, iris.target_names) 原来的target是这样的： array([0, 0, 0, 0 阅读全文

posted @ 2020-09-02 18:46 小小喽啰阅读(1062) 评论(0) 推荐(1)

Random Forest随机深林集成算法

摘要：一、什么是随机深林随机森林（Random Forest，简称RF）就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们阅读全文

posted @ 2020-09-01 19:46 小小喽啰阅读(613) 评论(0) 推荐(0)

sklearn.ensemble.RandomForestClassifier 随机深林参数详解

摘要：随机森林是一种元估计量，它适合数据集各个子样本上的许多决策树分类器，并使用平均数来提高预测准确性和控制过度拟合。子样本大小由max_samples参数bootstrap=True (default)控制，否则整个数据集用于构建每棵树随机森林优势随机森林算法几乎不需要输入的准备。它们不需要测算就能阅读全文

posted @ 2020-09-01 17:26 小小喽啰阅读(6396) 评论(0) 推荐(0)