随笔分类 -  机器学习

摘要:1. TF-IDF 1.1 原理 1.1.1 名词解释 TF:词频,某token在文档中出现的次数越多,则这个token的特征越能代表这篇文档自身的独特特征。 计算:token出现次数 / 文档总token数 IDF:逆文档频率,如果某个token在所有文档中都出现,那么这个token对于区分这些文 阅读全文
posted @ 2024-08-09 14:56 橘子葡萄火龙果 阅读(174) 评论(0) 推荐(0) 编辑
摘要:1. 基于距离的k-means聚类,需要人工提供聚簇数量K 1.1 通过肘方法确定最佳聚簇数量 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.pre 阅读全文
posted @ 2024-08-08 20:39 橘子葡萄火龙果 阅读(19) 评论(0) 推荐(0) 编辑
摘要:1. 通过sklearn调用机器学习api处理问题通用流程 # -*- coding: utf-8 -*- import time import joblib import numpy as np import pandas as pd from collections import Counter 阅读全文
posted @ 2024-08-08 15:28 橘子葡萄火龙果 阅读(11) 评论(0) 推荐(0) 编辑
摘要:1. 聚类是啥 聚类是一种 无监督学习 算法,聚类会将数据集中的数据分成不同的标签簇,使得簇内的数据相似性尽可能大,簇间的相似性尽可能小。 该 无监督学习 方法,将 没有标签的数据 变成了标签的数据,每个数据的标签就是其所属簇的簇标签。 2. 聚类算法 2.1 K-means 算法思想:事先假设数据 阅读全文
posted @ 2024-04-04 23:11 橘子葡萄火龙果 阅读(31) 评论(0) 推荐(0) 编辑
摘要:1. 模型思想 从样本中选出距离测试点最近的 K 个样本,通过这 K 个样本的属性即可推测出待测样本的属性,分类:取占多数类别的样本;回归:取 K 个样本的平均值。 1.1 KNN三要素 1)K 值得选取:K 过大会导致欠拟合,K值过小会导致过拟合。 2)距离的度量:一般欧式距离。sklearn的A 阅读全文
posted @ 2024-04-04 21:41 橘子葡萄火龙果 阅读(8) 评论(0) 推荐(0) 编辑
摘要:1. 特征工程意义 数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限。 所有让模型效果变得更好的数据处理方式都可以称作特征工程。 2. 特征工程处理 2.1 数据清洗 选择数据处理工具&查看数据的元数据以及特征信息,对字段意义、数据格式内容等有所认识,基于业务理解对数据进行关联性验证等。 阅读全文
posted @ 2024-04-04 19:48 橘子葡萄火龙果 阅读(30) 评论(0) 推荐(0) 编辑
摘要:1.集成学习思想 1.1 Bagging 用一堆弱学习器,分别去解决同一个分类或回归问题,最终 投票决定分类结果 或 取均值决定回归结果。保证弱学习器的多样性。训练不同模型用的数据集采用【有放回随机抽样】。 1.2 随机森林 基学习器是 决策树,由原来的在所有特征的所有可能分裂点选取最佳分裂点,改成 阅读全文
posted @ 2024-04-03 20:10 橘子葡萄火龙果 阅读(15) 评论(0) 推荐(0) 编辑
摘要:1. 模型理念 香农信息论:一个系统越是混乱,信息熵越高,系统越是有序,信息熵越低。S = ∑ ( -p log(p) ),因此,系统内变量越多,信息熵越大,变量之间出现的概率越平均,信息熵越大。 在银行借贷决策模型中,判定一个人是否可以借贷,每个选中这个人的一个特征数据进行判断,然后再上次判断的基 阅读全文
posted @ 2024-04-03 17:52 橘子葡萄火龙果 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1. 模型理念 利用 条件概率&全概率公式,由果推因,从已知的某个现象特征求得目标属性的方法。 所谓朴素:概率求解的过程中,假设数据特征之间是互相独立的,联合概率可以直接概率密度相乘。 2. 模型构建及特性 2.1 模型推理以及训练参数 由 条件概率公式 可以得知,在已知数据的各项特征前提下,求解当 阅读全文
posted @ 2024-04-03 16:54 橘子葡萄火龙果 阅读(36) 评论(0) 推荐(0) 编辑
摘要:1. 模型理念 在Logistic回归模型中,决策边界一旦能够将数据完全正确的分类,优化过程(梯段下降过程)就会立刻停止,因为在这个时候损失函数已经取得了最小值。而SVM则是求得所有正确解中的最优解。 支持向量积:以决策边界为中心,向两个方向做平行面直到两个平行面都恰好与两个类别的支持向量相交。两个 阅读全文
posted @ 2024-04-03 14:58 橘子葡萄火龙果 阅读(50) 评论(0) 推荐(0) 编辑
摘要:1. 模型理念 对于求解二分类问题,寻找一个决策边界,使得不同类别的点在边界的两侧,并用点到决策边界的 距离 表示该点属于某个类别的 概率。点到决策面的距离 d 直接将点代入决策面公式即可;距离到概率的映射函数需要符合概率的公理化定义,选用Sigmoid函数,(多分类问题选用 Softmax函数)。 阅读全文
posted @ 2024-04-03 11:58 橘子葡萄火龙果 阅读(16) 评论(0) 推荐(0) 编辑
摘要:1.模型理念 解决分类问题的目标是,根据现有数据获得一个分类器,当出现新数据后代入分类器,得到新数据属于哪个类别;而所谓的回归:其本来应该在什么位置,实际案例中可能会有所偏离,但是随着趋势的进行,其结果不会一直偏离下去而是会在原本应该的位置上下抖动。对这类回归问题的研究方法是:根据现有的观测数据,找 阅读全文
posted @ 2024-03-18 20:34 橘子葡萄火龙果 阅读(12) 评论(0) 推荐(0) 编辑
摘要:1.数据特征的归一化 1.1 问题产生 当样本不同特征数据的数值范围相差过大,目标函数会变得很扁,在梯度下降的时候,梯度方向会在一定程度上偏离极值点方向,降低了训练效率,增大了训练时间。有些训练数据的值很大,很容易超出数值范围,不利于运算。 1.2 归一化方法 通过归一化来解决上述问题,即:去量纲化 阅读全文
posted @ 2024-03-18 13:39 橘子葡萄火龙果 阅读(66) 评论(0) 推荐(0) 编辑
摘要:1. ML基本认识 机器学习是研究AI的一种方法。其从数据中挖掘特征从而学习到一些规律、规则(模型),然后对输入的新数据做出 预测(回归)和判断(分类)。 机器学习主要分为: 有监督学习:数据有标签,有监督学习分为 分类&回归 两类问题。 无监督学习:数据无标签,如:聚类等。 半监督学习:人工标注是 阅读全文
posted @ 2024-03-18 13:37 橘子葡萄火龙果 阅读(26) 评论(0) 推荐(0) 编辑