随笔分类 -  kaggle学习笔记

2018kaggle机器学习笔记
scorecard用法
摘要:# -*- coding: utf-8 -*- """ Created on Fri Oct 9 13:34:59 2020 @author: Administrator """ import scorecardpy as sc dat = sc.germancredit() #首先,导入germa 阅读全文

posted @ 2022-01-22 13:23 andy_1 阅读(628) 评论(0) 推荐(0) 编辑

sklearn聚类模型:基于密度的DBSCAN;基于混合高斯模型的GMM
摘要:1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类 (基于密度的聚类) 5 DBSCAN密度聚类算法 6 混合高斯模型Gaussian Mixture Model(GMM) 阅读全文

posted @ 2019-03-13 15:04 andy_1 阅读(1539) 评论(0) 推荐(0) 编辑

skearn学习路径
摘要:sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons python np.logspace(1,10,5) np.linspace() 创建等比数列,生成(star 阅读全文

posted @ 2019-03-07 10:46 andy_1 阅读(377) 评论(0) 推荐(0) 编辑

透彻形象理解核函数
摘要:透彻形象理解核函数 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(231) 评论(0) 推荐(0) 编辑

GBDT、XGBOOST、LightGBM对比学习及调参
摘要:一、概述。 因为工作原因,LightGBM 、 XGBOOST 、GBDT 是不可避免要接触的。这里仅仅记录个人的学习经验。 总的认识: LightGBM > XGBOOST > GBDT (效果及易用性) 都是调参数比较麻烦。(个人感觉LightGBM和XGBOOST的默认参数已经很强大了。) 二 阅读全文

posted @ 2019-02-27 11:03 andy_1 阅读(1441) 评论(0) 推荐(0) 编辑

sklearn,交叉验证中的分层抽样
摘要:StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 例子: import numpy as np from sklearn.model_selection import KFold,StratifiedKFold 作者:wqh 阅读全文

posted @ 2019-02-25 16:50 andy_1 阅读(3319) 评论(0) 推荐(0) 编辑

sklearn调参(验证曲线,可视化不同参数下交叉验证得分)
摘要:一 、 原始方法: 思路: 1. 参数从 0+∞ 的一个 区间 取点, 方法如: np.logspace(-10, 0, 10) , np.logspace(-6, -1, 5) 2. 循环调用cross_val_score计算得分。 在SVM不同的惩罚参数C下的模型准确率。 效果: 二、高级方法( 阅读全文

posted @ 2019-02-25 15:34 andy_1 阅读(1556) 评论(0) 推荐(0) 编辑

SKlearn库学习曲线
摘要:思想: # 1.现将所有样本用交叉验证方法或者(随机抽样方法) 得到 K对 训练集-验证集# 2.依次对K个训练集,拿出数量不断增加的子集如m个,并在这些K*m个子集上训练模型。# 3.依次在对应训练集子集、验证集上计算得分。# 4.对每种大小下的子集,计算K次训练集得分均值和K次验证集得分均值,共 阅读全文

posted @ 2019-02-25 14:12 andy_1 阅读(1840) 评论(0) 推荐(0) 编辑

时间指标的细化
摘要: 阅读全文

posted @ 2019-01-31 14:41 andy_1 阅读(211) 评论(0) 推荐(0) 编辑

K最近邻kNN-学习笔记
摘要:# 0.98 改进点: 1. 根据最近的K个值 的距离对最终结果,进行加权。 2. 通过先验知识,对训练数据进行筛选,缩小训练样本,提高样本质量,有利于提高计算速度。 3. 变量尽量少,这样可以提供速度。 优点: 1. 算法原理非常简单: 用 欧式距离最近(或曼哈顿距离)的K个样本点的分类中的众数, 阅读全文

posted @ 2019-01-24 09:49 andy_1 阅读(260) 评论(0) 推荐(0) 编辑

随机森林学习-sklearn
摘要:随机森林的Python实现 (RandomForestClassifier) #有意思的输出clf.feature_importances_ # 输出 自变量的总要程度clf.predict_proba(test[features]) #输出每个测试样本对应几种数据类型的概率值 150个数据,112 阅读全文

posted @ 2019-01-23 10:07 andy_1 阅读(1839) 评论(0) 推荐(0) 编辑

PCA和SVD最佳理解
摘要:奇异值分解(SVD)原理与在降维中的应用 https://www.cnblogs.com/pinard/p/6251584.html 最通俗易懂的PCA主成分分析推导 https://blog.csdn.net/u012526436/article/details/80868294,https:// 阅读全文

posted @ 2019-01-21 13:57 andy_1 阅读(625) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示