随笔分类 -  机器学习

摘要:###基础工具 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os import warnings from sklearn.model_sele 阅读全文
posted @ 2021-01-15 17:17 Christbao 阅读(918) 评论(0) 推荐(0) 编辑
摘要:纬线:地球仪上的横线,lat,赤道是最大的纬线,从赤道开始分为北纬和南纬,都是0-90°,纬线是角度数值,并不是米; 经线:地球仪上的竖线,lng,子午线为0°,分为西经和东经,都是0-180°,经线也是角度数值; 经纬线和米的换算:经度或者纬度0.00001度,约等于1米,这个在GPS测算距离的时 阅读全文
posted @ 2020-07-10 17:51 Christbao 阅读(1804) 评论(0) 推荐(0) 编辑
摘要:基础准备 一、风控建模分类 授信类建模 反欺诈建模 二、反欺诈建模和授信建模的不同 什么是欺诈?什么是反欺诈?这一切都是由业务场景所决定。 反欺诈底层是什么?不仅要与相类似的数据比较,还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时,寻找“正常”中的异常。 怎么做?有监督,无监督,策 阅读全文
posted @ 2020-06-21 16:37 Christbao 阅读(114) 评论(0) 推荐(0) 编辑
摘要:数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程;可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小 主要表现: 阅读全文
posted @ 2020-01-22 23:09 Christbao 阅读(415) 评论(0) 推荐(0) 编辑
摘要:one-hot encoding与哑变量的区别 one-hot比哑变量的特征位多一位,即哑变量是精简版的one-hot,即在线性回归中用截距项来表示最后一维,但由于最初很难分辨特征的主次关系,且机器学习中多数情况为非线性回归,所以哑变量不太适用(蒙的,有待考证,回头纠正) one_hot将特征映射到 阅读全文
posted @ 2019-12-11 14:25 Christbao 阅读(879) 评论(0) 推荐(0) 编辑
摘要:微积分 dy=x微分*x变化量 微分中值定理:微分中值定理揭示了函数在某区间的整体性质与该区间内部某一点的导数之间的关系,因而称为中值定理 切线:通过割线和无穷小量定义了切线。 导数:通过切线和无穷小量定义了导数,导数是曲线在某点处切线的斜率,导数的值等于微商。 微分:微分是微小的增量,即无穷小量。 阅读全文
posted @ 2019-12-11 14:24 Christbao 阅读(688) 评论(0) 推荐(0) 编辑
摘要:聚类分析(集中趋势分析) 离散分析(分散性和变异性分析) 离散分布模型(二项、几何、泊松) 连续分布分析(正态分析) 统计抽样分析 置信区间设置 假设检验、卡方分布(结论检验) 相关和回归 将异常值剔除在外,可以保障数据不被扭曲 数据集中程度 平均数的类别有三种:均值、中位数、众数 均值带来的数值并 阅读全文
posted @ 2019-12-11 14:21 Christbao 阅读(886) 评论(0) 推荐(0) 编辑
摘要:混淆矩阵 精准率/查准率,presicion 预测为正的样本中实际为正的概率 召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR F1分数,同时考虑查准率和查全率,二者达到平衡,=2*查准率*查全率/(查准率+查全率) 真正率 = 灵敏度 sensitivity 召回率 TP/T 阅读全文
posted @ 2019-12-11 14:05 Christbao 阅读(1090) 评论(0) 推荐(0) 编辑
摘要:逻辑回归 线性回归是特征的线性组合来拟合真实标记,逻辑回归是特征的线性组合拟合真实标记的正例的概率的对数几率 一句话总结:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 a.假设有模型P(Y=1|x)=F(x)=1/1+e−θTx,在已知 阅读全文
posted @ 2019-12-11 14:01 Christbao 阅读(172) 评论(0) 推荐(0) 编辑
摘要:数据不平衡问题在业务中经常出现,特别总结下自己的业务经验以及其他大佬的经验。 1、数据方向 最好的解决方案是负样本补齐,但这是一句废话,样本补齐后,原有的数据分布可能发生了变化,另外正样本时间窗口延长,新的数据特征可能被稀释。 一般的操作:上采样,下采样,数据合成,数据加权 上采样和下采样都有利有弊 阅读全文
posted @ 2019-11-25 16:26 Christbao 阅读(393) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示