机器学习算法 - 随笔分类 - andy_1

Sklearn机器学习模型上线

摘要：方案1：根据（Python）输出模型的pmml文件；开发者根据pmml文件，开发java上线。方案2：单独的部署一个生产的python环境，模型输出到这个环境并起flask的api，给java开发者调用。结论：方案1不可行。方案2是业内通行方案。无法将模型预测全部（含特征加工和输出值转换阅读全文

posted @ 2021-01-11 11:04 andy_1 阅读(694) 评论(0) 推荐(0) 编辑

模型01预测值box-cox转换为正态分布评分

摘要：from sklearn.preprocessing import PowerTransformer 参数说明 method ：可选，接受一个字符串值，默认是 ‘yeo-johnson’ ， ’yeo-johnson’ ：指明幂变换方式以 Yeo-Johnson transform 方式实现，此种方阅读全文

posted @ 2020-11-30 10:44 andy_1 阅读(641) 评论(0) 推荐(0) 编辑

模型pipeline及pmml文件

摘要：模型部署：sklearn模型保存为pmml文件（注意：包sklearn2pmml中自带PMMLPipeline工具，所以不需要使用包sklearn中的Pipeline方法。）环境: win7_64, anaconda3.6. 安装包，sklearn_pandas 用于特征工程的pipeline化阅读全文

posted @ 2020-11-27 09:43 andy_1 阅读(2148) 评论(0) 推荐(1) 编辑

风控模型中的K-S理解以及python实现《转载》

摘要：import pandas as pd import numpy as np from sklearn.metrics import roc_curve from scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): '' 阅读全文

posted @ 2019-04-08 19:52 andy_1 阅读(281) 评论(0) 推荐(0) 编辑

sklearn聚类模型：基于密度的DBSCAN；基于混合高斯模型的GMM

摘要：1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类（基于密度的聚类） 5 DBSCAN密度聚类算法 6 混合高斯模型Gaussian Mixture Model(GMM) 阅读全文

posted @ 2019-03-13 15:04 andy_1 阅读(1539) 评论(0) 推荐(0) 编辑

skearn学习路径

摘要：sklearn学习总结（超全面）关于sklearn，监督学习几种模型的对比 sklearn之样本生成make_classification，make_circles和make_moons python np.logspace(1,10,5) np.linspace() 创建等比数列，生成(star 阅读全文

posted @ 2019-03-07 10:46 andy_1 阅读(377) 评论(0) 推荐(0) 编辑

透彻形象理解核函数

摘要：透彻形象理解核函数阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(231) 评论(0) 推荐(0) 编辑

GBDT、XGBOOST、LightGBM对比学习及调参

摘要：一、概述。因为工作原因，LightGBM 、 XGBOOST 、GBDT 是不可避免要接触的。这里仅仅记录个人的学习经验。总的认识： LightGBM > XGBOOST > GBDT （效果及易用性）都是调参数比较麻烦。（个人感觉LightGBM和XGBOOST的默认参数已经很强大了。）二阅读全文

posted @ 2019-02-27 11:03 andy_1 阅读(1441) 评论(0) 推荐(0) 编辑

sklearn,交叉验证中的分层抽样

摘要：StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同。例子： import numpy as np from sklearn.model_selection import KFold,StratifiedKFold 作者：wqh 阅读全文

posted @ 2019-02-25 16:50 andy_1 阅读(3319) 评论(0) 推荐(0) 编辑

sklearn调参（验证曲线，可视化不同参数下交叉验证得分）

摘要：一、原始方法：思路： 1. 参数从 0+∞ 的一个区间取点，方法如： np.logspace(-10, 0, 10) ， np.logspace(-6, -1, 5) 2. 循环调用cross_val_score计算得分。在SVM不同的惩罚参数C下的模型准确率。效果：二、高级方法（阅读全文

posted @ 2019-02-25 15:34 andy_1 阅读(1556) 评论(0) 推荐(0) 编辑

SKlearn库学习曲线

摘要：思想： # 1.现将所有样本用交叉验证方法或者（随机抽样方法) 得到 K对训练集-验证集# 2.依次对K个训练集，拿出数量不断增加的子集如m个，并在这些K*m个子集上训练模型。# 3.依次在对应训练集子集、验证集上计算得分。# 4.对每种大小下的子集，计算K次训练集得分均值和K次验证集得分均值，共阅读全文

posted @ 2019-02-25 14:12 andy_1 阅读(1840) 评论(0) 推荐(0) 编辑

时间指标的细化

摘要：阅读全文

posted @ 2019-01-31 14:41 andy_1 阅读(211) 评论(0) 推荐(0) 编辑

K最近邻kNN-学习笔记

摘要：# 0.98 改进点： 1. 根据最近的K个值的距离对最终结果，进行加权。 2. 通过先验知识，对训练数据进行筛选，缩小训练样本，提高样本质量，有利于提高计算速度。 3. 变量尽量少，这样可以提供速度。优点： 1. 算法原理非常简单：用欧式距离最近（或曼哈顿距离）的K个样本点的分类中的众数，阅读全文

posted @ 2019-01-24 09:49 andy_1 阅读(260) 评论(0) 推荐(0) 编辑

随机森林学习-sklearn

摘要：随机森林的Python实现 (RandomForestClassifier) #有意思的输出clf.feature_importances_ # 输出自变量的总要程度clf.predict_proba(test[features]) #输出每个测试样本对应几种数据类型的概率值 150个数据，112 阅读全文

posted @ 2019-01-23 10:07 andy_1 阅读(1839) 评论(0) 推荐(0) 编辑

windows安装spark

只有注册用户登录后才能阅读该文。

posted @ 2018-12-11 10:10 andy_1 阅读(5) 评论(0) 推荐(0) 编辑

用sklearn计算卡方检验P值

摘要：情形： 1. 对于一批分类变量，我们通常要评价两两之间的相关程度。 2. 因变量是分类变量，衡量其他分类变量和因变量的相关性高低。来源：https://blog.csdn.net/snowdroptulip/article/details/78867053 分类变量相关性检验方法：https:// 阅读全文

posted @ 2018-07-27 16:14 andy_1 阅读(4828) 评论(0) 推荐(0) 编辑

简明

随笔分类 - 机器学习算法

Sklearn机器学习模型上线

模型01预测值box-cox转换为正态分布评分

模型pipeline及pmml文件

风控模型中的K-S理解以及python实现《转载》

sklearn聚类模型：基于密度的DBSCAN；基于混合高斯模型的GMM

skearn学习路径

透彻形象理解核函数

GBDT、XGBOOST、LightGBM对比学习及调参

sklearn,交叉验证中的分层抽样

sklearn调参（验证曲线，可视化不同参数下交叉验证得分）

SKlearn库学习曲线

时间指标的细化

K最近邻kNN-学习笔记

随机森林学习-sklearn

windows安装spark

用sklearn计算卡方检验P值

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

计算机

阅读排行榜

评论排行榜

推荐排行榜

最新评论