自我说明:机器学习词汇表
自我说明:机器学习词典( 机器学习词汇表 )
词袋 :一种用于从文本中提取特征的技术。它计算一个单词在文档(语料库)中出现的次数,然后将该信息转换为数据集。
一个 分类的 label 具有一组离散的可能值,例如“is a cat”和“is not a cat”。
聚类 .帮助确定数据中是否存在任何自然发生的分组的无监督学习任务。
美国有线电视新闻网 :卷积神经网络 (CNN) 表示网格组织数据上的嵌套过滤器。迄今为止,它们是处理图像时最常用的模型类型。
一个 连续(回归) label 没有一组离散的可能值,这意味着可能有无限数量的可能性。
数据矢量化 :将非数字数据转换为数字格式以便机器学习模型可以使用的过程。
离散的 :取自统计数据的术语,指仅采用有限数量值的结果(例如一周中的几天)。
FFNN : 构建神经网络最直接的方法,前馈神经网络 (FFNN) 在一系列层中构建神经元,层中的每个神经元包含前一层中所有神经元的权重。
超参数 是模型上的设置,在训练期间不会更改,但会影响模型训练的速度或可靠性,例如模型应识别的集群数量。
日志丢失 用于计算您的模型对其生成的预测的不确定性。
超平面 :包含两个以上平面的表面的数学术语。
估算 是一个常用术语,指的是不同的统计工具,可用于计算数据集中的缺失值。
标签 指已经包含解决方案的数据。
损失函数 用于编码模型与该目标的距离
机器学习 ,或 ML,是一种现代软件开发技术,它使计算机能够通过使用真实世界数据的示例来解决问题。
模型精度 是模型正确预测的比例。离散:取自统计数据的术语,指仅采用有限数量值(例如一周中的几天)的结果。连续:具有无限可能值范围的浮点值。与分类或离散值相反,它们采用有限数量的可能值。
模型推断 是训练模型用于生成预测的时候。
模型是一个非常通用的程序,由用于训练它的数据具体化。
型号参数 是训练算法可以更新以更改模型行为方式的设置或配置。
模型训练算法 通过交互式过程工作,在该过程中分析当前模型迭代以确定可以进行哪些更改以更接近目标。进行这些更改并继续迭代,直到评估模型以满足目标。
神经网络 :连接在一起的非常简单的模型的集合。这些简单的模型被称为 神经元 .这些模型之间的联系是可训练的模型参数,称为 权重 .
异常值 是同一样本中与其他数据显着不同的数据点。
飞机 : 一个平面(如一张纸)的数学术语,两个点可以通过直线连接。
回归 :监督机器学习中的常见任务。
在 强化学习 ,该算法计算出在达到特定目标的过程中在某种情况下采取哪些行动来最大化奖励(以数字的形式)。
RNN/LSTM :循环神经网络 (RNN) 和相关的长短期记忆 (LSTM) 模型类型的结构可以有效地表示传统计算中的 for 循环,在迭代某些对象时收集状态。它们可用于处理数据序列。
剪影系数 t:从 -1 到 1 的分数,描述建模过程中发现的集群。接近零的分数表示重叠的聚类,小于零的分数表示分配给错误聚类的数据点。一个
停用词 :构建数据集时自然语言处理工具删除的单词列表。全自然语言处理工具没有使用单一的通用停用词列表。
在 监督学习, 数据集中的每个训练样本都有一个与之关联的相应标签或输出值。结果,该算法学会了预测标签或输出值。
测试数据集 :在训练期间从模型中保留的数据,用于测试您的模型对新数据的泛化能力。
训练数据集 :将训练模型的数据。您的大部分数据都将在这里。
变压器 :作为 RNN/LSTM 的更现代替代品,transformer 架构能够在涉及数据序列的更大数据集上进行训练。
在 未标记数据 ,您无需在训练模型时为模型提供任何类型的标签或解决方案。
在 无监督学习 ,训练数据没有标签。机器学习算法试图学习管理数据的底层模式或分布。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明