摘要: 总结 IV (信息价值,或者信息量) 作用:可以用来衡量自变量(特征)的预测能力 公式: 对每组的IV值求和就可以求出一个特征的IV值 系数(py-pn):这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对特征整体预测能力的贡献越低 WOE (证据权重) 公式: 由公式可以看出 阅读全文
posted @ 2020-07-26 15:05 电竞杰森斯坦森 阅读(1670) 评论(0) 推荐(0) 编辑
摘要: 总结 贝叶斯算法 我们希望模型在分类的时候不是直接返回分类,而是返回属于某个分类的概率 特征与特征之间条件独立(特征之间无任何关联),就可以使用贝叶斯算法,朴素指的就是条件独立 朴素贝叶斯模型常用于文本分类 在sk-learn中提供了三种不同类型的贝叶斯模型算法 高斯模型(基于高斯分布实现分类概率的 阅读全文
posted @ 2020-07-23 18:10 电竞杰森斯坦森 阅读(1111) 评论(0) 推荐(0) 编辑
摘要: 总结 欠拟合:(对训练集的数据和测试集的数据拟合的都不是很好) 原因:模型学习到样本的特征太少 解决:增加样本的特征数量(多项式回归) 多项式回归:from sklearn.preprocessing import PolynomialFeatures 在原有特征的基础上增加高次方特征 过拟合:(对 阅读全文
posted @ 2020-07-23 17:12 电竞杰森斯坦森 阅读(1810) 评论(0) 推荐(0) 编辑
摘要: 总结 线性回归 线性回归原理:每个特征需要有一个权重系数,这个权重系数明确后,就可以通过计算预测最终结果,权重越大这个特征就越重要 权重系数的个数一定是和特征维度保持一致。 线性回归模型是否要带截距:如果带截距能够很好拟合就带上,这样的线性回归模型更具有通用性 回归算法就是在不断的自身迭代的减少误差 阅读全文
posted @ 2020-07-22 15:25 电竞杰森斯坦森 阅读(3737) 评论(0) 推荐(0) 编辑
摘要: 使用knn实现手写数字图片的识别 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklear 阅读全文
posted @ 2020-07-21 20:58 电竞杰森斯坦森 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 总结 K近邻法的工作原理:某个未知类型点的特征数据距离K个已有类型近邻点特征数据的距离,根据这个距离对未知类型的数据进行分类 KNN模型超参数K值:K值不同会导致分类结果的不同 距离:采用欧几里得公式求得距离 适用范围:KNN适用于样本量级不够大得项目,因为它得运算成本比较高,数据量级越大,建模会耗 阅读全文
posted @ 2020-07-21 15:10 电竞杰森斯坦森 阅读(1241) 评论(0) 推荐(0) 编辑
摘要: 总结 数据集的划分:from sklearn.model_selection import train_test_split train_test_split(x,y,test_size,random_state)参数:x:特征数据,y:标签数据,test_size:测试集的比例,random_st 阅读全文
posted @ 2020-07-20 21:35 电竞杰森斯坦森 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 总结 特征工程:对样本数据的特征进行处理除去对样本数据影响很大缺失值,重复值,异常值等等的垃圾数据,提高样本数据在模型中对未知数据预测的准确性 特征抽取 特征化:将非数值的数据转化为数值型的数据 字典数据特征化:from sklearn.feature_extraction import DictV 阅读全文
posted @ 2020-07-20 15:51 电竞杰森斯坦森 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 总结 人工智能和机器学习的区别:机器学习可以实现人工智能 机器学习概念:机器学习就是利用样本数据进行一系列分析得到一个数据模型。这个模型可以对未知数据进行预测或分类 模型:对数据进行一系列分析后得到的产物,模型,模型存在的意义就是对未知数据进行预测 训练模型:将样本数据进行分析,训练他们,得到训练后 阅读全文
posted @ 2020-07-20 15:25 电竞杰森斯坦森 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添 阅读全文
posted @ 2020-07-17 19:54 电竞杰森斯坦森 阅读(726) 评论(0) 推荐(0) 编辑