随笔分类 - 机器学习
发表于 2022-07-26 17:14阅读:137评论:0推荐:0
摘要:输入数据归一化和特征归一化,两者有一定相似性 输入归一化 输入归一化和标准化为什么输入数据需要归一化? 排除量纲影响 避免异常值引起的网络无法收敛或数值问题 激活函数用sigmoid时,避免神经元饱和 零中心可以提高训练效率,少走“之”字(输入全为正时,与第一层相连的权重只能全为正或负) 防止梯度爆
阅读全文 »
发表于 2021-02-24 16:51阅读:200评论:0推荐:0
摘要:1、scikit-learn SVC、NuSVC、和LinearSVC区别 scikit-learn中SVM的算法库分为两类,一类是分类的算法库,包括SVC, NuSVC,和LinearSVC 3个类。另一类是回归算法库,包括SVR, NuSVR,和LinearSVR 3个类。相关的类都包裹在skl
阅读全文 »
发表于 2021-02-21 22:17阅读:450评论:0推荐:0
摘要:问题是,使用numpy实现线性回归,代码是这样的 ################### 线性回归 ## 模型 y = w*x + b ## Loss = (y-y_predient)^2 = (y - w * x - b)^2 ## w' = 2 * (y - w * x - b) * (-x)
阅读全文 »
发表于 2021-02-20 11:24阅读:217评论:0推荐:0
摘要:1、AUC 全称是Area under the Curve of ROC,ROC曲线下方的面积,常用来评价一个二分类模型的训练效果。 ROC曲线: 二元分类模型的单个样本预测有四种结果,混淆矩阵: 基于以上混淆矩阵,ROC曲线定义为 假阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴
阅读全文 »
发表于 2021-02-19 10:45阅读:253评论:0推荐:0
摘要:1、参数Parameters n_estimators int, default=100 The number of trees in the forest. Changed in version 0.22: The default value of n_estimators changed fro
阅读全文 »
发表于 2021-01-17 14:03阅读:445评论:0推荐:0
摘要:1、TSNE sklearn中TSNE sklearn.maniflod manifold:可以称之为流形数据。像绳结一样的数据,虽然在高维空间中可分,但是在人眼所看到的低维空间中,绳结中的绳子是互相重叠的不可分的。 t-SNE是目前来说效果最好的数据降维与可视化方法,但是它的缺点也很明显,比如:占
阅读全文 »
发表于 2020-12-22 20:24阅读:607评论:0推荐:0
摘要:1、归一化是将数值放缩到[0, 1]或者[-1, 1] 常用于机器学习计算多个不同量纲的特征映射到[0, 1]或者[-1, 1],所以该值受有最大值和最小值决定 2、z-score 由于Z-score的数据分布满足“正态分布”(N(0,1)),而“正态分布”又被称为“Z-分布”,所以该方法被称为“Z
阅读全文 »
发表于 2020-12-22 20:05阅读:174评论:0推荐:0
摘要:1、word2vec模型 为一款将词表表征为实数值向量的工具,输出的词向量可以被用来做词性分析,找同义词等 word2vec源码(gensim) 测试代码 def simple_example(): sentences = [['first', 'sentence'], ['second', 'se
阅读全文 »
发表于 2020-04-05 12:11阅读:0评论:0推荐:0
摘要:1、机器学习就是学习最佳的fucntion,实现从x预测y 2、对于输入的(x,y),训练出来一些model,这些model function计算出来的y1,y2,y3... 均值为E(y1,y2,y3...),即所有的预测输出值均在E(y1,y2,y3...)的周围(比如是射箭,虽然射出去的箭都是
阅读全文 »
发表于 2019-11-24 19:09阅读:243评论:0推荐:0
摘要:1概率 概率 P 是对随机事件发生的可能性的度量。2期望值 期望值E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。 3方差 方差 ,用来度量随机变量取值和其期望值之间的偏离程度,其中:X 表示随机变量,N 表示样本的个数,表示期望值 4协方差 协方差,字面上看它
阅读全文 »
发表于 2019-11-09 19:37阅读:754评论:0推荐:0
摘要:1、文本类的分类任务,特征提取几种方式 1、词集模型 文本中单词的种类的集合,只统计单词的有无,和出现个数无关 使用场景:自定义的词集黑名单,是否可以使用这种模型,具体使用方式(TODO1)? 2、词袋模型 相对于词集模型,还有统计每个单词出现的次数(频率) 实现原理:参考sklearn(TODO2
阅读全文 »