摘要: 1. 聚类是啥 聚类是一种 无监督学习 算法,聚类会将数据集中的数据分成不同的标签簇,使得簇内的数据相似性尽可能大,簇间的相似性尽可能小。 该 无监督学习 方法,将 没有标签的数据 变成了标签的数据,每个数据的标签就是其所属簇的簇标签。 2. 聚类算法 2.1 K-means 算法思想:事先假设数据 阅读全文
posted @ 2024-04-04 23:11 橘子葡萄火龙果 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 1. 模型思想 从样本中选出距离测试点最近的 K 个样本,通过这 K 个样本的属性即可推测出待测样本的属性,分类:取占多数类别的样本;回归:取 K 个样本的平均值。 1.1 KNN三要素 1)K 值得选取:K 过大会导致欠拟合,K值过小会导致过拟合。 2)距离的度量:一般欧式距离。sklearn的A 阅读全文
posted @ 2024-04-04 21:41 橘子葡萄火龙果 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 1. 特征工程意义 数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限。 所有让模型效果变得更好的数据处理方式都可以称作特征工程。 2. 特征工程处理 2.1 数据清洗 选择数据处理工具&查看数据的元数据以及特征信息,对字段意义、数据格式内容等有所认识,基于业务理解对数据进行关联性验证等。 阅读全文
posted @ 2024-04-04 19:48 橘子葡萄火龙果 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 1.集成学习思想 1.1 Bagging 用一堆弱学习器,分别去解决同一个分类或回归问题,最终 投票决定分类结果 或 取均值决定回归结果。保证弱学习器的多样性。训练不同模型用的数据集采用【有放回随机抽样】。 1.2 随机森林 基学习器是 决策树,由原来的在所有特征的所有可能分裂点选取最佳分裂点,改成 阅读全文
posted @ 2024-04-03 20:10 橘子葡萄火龙果 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 1. 模型理念 香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。 在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基 阅读全文
posted @ 2024-04-03 17:52 橘子葡萄火龙果 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 1. 模型理念 利用 条件概率&全概率公式,由果推因,从已知的某个现象特征求得目标属性的方法。 所谓朴素:概率求解的过程中,假设数据特征之间是互相独立的,联合概率可以直接概率密度相乘。 2. 模型构建及特性 2.1 模型推理以及训练参数 由 条件概率公式 可以得知,在已知数据的各项特征前提下,求解当 阅读全文
posted @ 2024-04-03 16:54 橘子葡萄火龙果 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 1. 模型理念 在Logistic回归模型中,决策边界一旦能够将数据完全正确的分类,优化过程(梯段下降过程)就会立刻停止,因为在这个时候损失函数已经取得了最小值。而SVM则是求得所有正确解中的最优解。 支持向量积:以决策边界为中心,向两个方向做平行面直到两个平行面都恰好与两个类别的支持向量相交。两个 阅读全文
posted @ 2024-04-03 14:58 橘子葡萄火龙果 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 1. 模型理念 对于求解二分类问题,寻找一个决策边界,使得不同类别的点在边界的两侧,并用点到决策边界的 距离 表示该点属于某个类别的 概率。点到决策面的距离 d 直接将点代入决策面公式即可;距离到概率的映射函数需要符合概率的公理化定义,选用Sigmoid函数,(多分类问题选用 Softmax函数)。 阅读全文
posted @ 2024-04-03 11:58 橘子葡萄火龙果 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 1.5.1 Numpy常用方法 在Numpy常用方法如:sum,argmin等方法中,经常出现参数 axis。【axis表示维度,从0开始,含义是:如果设置axis=i,则计算会沿着 i 变化的方向操作。】 示例: import sys import numpy as np a = np.arang 阅读全文
posted @ 2024-04-02 18:23 橘子葡萄火龙果 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 1.模型理念 解决分类问题的目标是,根据现有数据获得一个分类器,当出现新数据后代入分类器,得到新数据属于哪个类别;而所谓的回归:其本来应该在什么位置,实际案例中可能会有所偏离,但是随着趋势的进行,其结果不会一直偏离下去而是会在原本应该的位置上下抖动。对这类回归问题的研究方法是:根据现有的观测数据,找 阅读全文
posted @ 2024-03-18 20:34 橘子葡萄火龙果 阅读(7) 评论(0) 推荐(0) 编辑