随笔分类 -  机器学习算法

Sklearn机器学习模型上线
摘要:方案1: 根据(Python) 输出模型的pmml文件;开发者根据pmml文件,开发java上线。方案2: 单独的部署一个生产的python环境,模型输出到这个环境并起flask的api,给java开发者调用。 结论: 方案1不可行。方案2是业内通行方案。 无法将模型预测全部(含特征加工和输出值转换 阅读全文

posted @ 2021-01-11 11:04 andy_1 阅读(694) 评论(0) 推荐(0) 编辑

模型01预测值box-cox转换为正态分布评分
摘要:from sklearn.preprocessing import PowerTransformer 参数说明 method :可选,接受一个字符串值,默认是 ‘yeo-johnson’ , ’yeo-johnson’ :指明幂变换方式以 Yeo-Johnson transform 方式实现,此种方 阅读全文

posted @ 2020-11-30 10:44 andy_1 阅读(641) 评论(0) 推荐(0) 编辑

模型pipeline及pmml文件
摘要:模型部署:sklearn模型保存为pmml文件 (注意:包sklearn2pmml中自带PMMLPipeline工具,所以不需要使用包sklearn中的Pipeline方法。) 环境: win7_64, anaconda3.6. 安装包,sklearn_pandas 用于特征工程的pipeline化 阅读全文

posted @ 2020-11-27 09:43 andy_1 阅读(2148) 评论(0) 推荐(1) 编辑

风控模型中的K-S理解以及python实现《转载》
摘要:import pandas as pd import numpy as np from sklearn.metrics import roc_curve from scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): '' 阅读全文

posted @ 2019-04-08 19:52 andy_1 阅读(281) 评论(0) 推荐(0) 编辑

sklearn聚类模型:基于密度的DBSCAN;基于混合高斯模型的GMM
摘要:1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类 (基于密度的聚类) 5 DBSCAN密度聚类算法 6 混合高斯模型Gaussian Mixture Model(GMM) 阅读全文

posted @ 2019-03-13 15:04 andy_1 阅读(1539) 评论(0) 推荐(0) 编辑

skearn学习路径
摘要:sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons python np.logspace(1,10,5) np.linspace() 创建等比数列,生成(star 阅读全文

posted @ 2019-03-07 10:46 andy_1 阅读(377) 评论(0) 推荐(0) 编辑

透彻形象理解核函数
摘要:透彻形象理解核函数 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(231) 评论(0) 推荐(0) 编辑

GBDT、XGBOOST、LightGBM对比学习及调参
摘要:一、概述。 因为工作原因,LightGBM 、 XGBOOST 、GBDT 是不可避免要接触的。这里仅仅记录个人的学习经验。 总的认识: LightGBM > XGBOOST > GBDT (效果及易用性) 都是调参数比较麻烦。(个人感觉LightGBM和XGBOOST的默认参数已经很强大了。) 二 阅读全文

posted @ 2019-02-27 11:03 andy_1 阅读(1441) 评论(0) 推荐(0) 编辑

sklearn,交叉验证中的分层抽样
摘要:StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 例子: import numpy as np from sklearn.model_selection import KFold,StratifiedKFold 作者:wqh 阅读全文

posted @ 2019-02-25 16:50 andy_1 阅读(3319) 评论(0) 推荐(0) 编辑

sklearn调参(验证曲线,可视化不同参数下交叉验证得分)
摘要:一 、 原始方法: 思路: 1. 参数从 0+∞ 的一个 区间 取点, 方法如: np.logspace(-10, 0, 10) , np.logspace(-6, -1, 5) 2. 循环调用cross_val_score计算得分。 在SVM不同的惩罚参数C下的模型准确率。 效果: 二、高级方法( 阅读全文

posted @ 2019-02-25 15:34 andy_1 阅读(1556) 评论(0) 推荐(0) 编辑

SKlearn库学习曲线
摘要:思想: # 1.现将所有样本用交叉验证方法或者(随机抽样方法) 得到 K对 训练集-验证集# 2.依次对K个训练集,拿出数量不断增加的子集如m个,并在这些K*m个子集上训练模型。# 3.依次在对应训练集子集、验证集上计算得分。# 4.对每种大小下的子集,计算K次训练集得分均值和K次验证集得分均值,共 阅读全文

posted @ 2019-02-25 14:12 andy_1 阅读(1840) 评论(0) 推荐(0) 编辑

时间指标的细化
摘要: 阅读全文

posted @ 2019-01-31 14:41 andy_1 阅读(211) 评论(0) 推荐(0) 编辑

K最近邻kNN-学习笔记
摘要:# 0.98 改进点: 1. 根据最近的K个值 的距离对最终结果,进行加权。 2. 通过先验知识,对训练数据进行筛选,缩小训练样本,提高样本质量,有利于提高计算速度。 3. 变量尽量少,这样可以提供速度。 优点: 1. 算法原理非常简单: 用 欧式距离最近(或曼哈顿距离)的K个样本点的分类中的众数, 阅读全文

posted @ 2019-01-24 09:49 andy_1 阅读(260) 评论(0) 推荐(0) 编辑

随机森林学习-sklearn
摘要:随机森林的Python实现 (RandomForestClassifier) #有意思的输出clf.feature_importances_ # 输出 自变量的总要程度clf.predict_proba(test[features]) #输出每个测试样本对应几种数据类型的概率值 150个数据,112 阅读全文

posted @ 2019-01-23 10:07 andy_1 阅读(1839) 评论(0) 推荐(0) 编辑

windows安装spark
只有注册用户登录后才能阅读该文。

posted @ 2018-12-11 10:10 andy_1 阅读(5) 评论(0) 推荐(0) 编辑

用sklearn计算卡方检验P值
摘要:情形: 1. 对于一批分类变量,我们通常要评价两两之间的相关程度。 2. 因变量是分类变量,衡量其他分类变量和因变量的相关性高低。 来源:https://blog.csdn.net/snowdroptulip/article/details/78867053 分类变量相关性检验方法:https:// 阅读全文

posted @ 2018-07-27 16:14 andy_1 阅读(4828) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示