机器学习概述
重要概念
-
训练集
包含待测试数据的所有特征,以及该数据的标签,用于训练模型
-
验证集
用于调整模型
-
测试集
包含待测试数据的所有特征,以及该数据的标签,用于检测模型是否符合要求
-
交叉验证法
将数据划分为 k 个子集。然后,我们在 k-1 个子集上迭代训练算法,同时使用剩余的子集作为测试集。
-
欠拟合
在训练数据和预测结果时,模型精确度均不高
-
过拟合
模型出现拟合过度的情况
-
监督学习
从带有标注的训练数据中学习到如何对训练数据的特征进行判断
-
无监督学习
从没有标注的训练数据中学习数据的特征或信息
-
半监督学习
介于监督学习与无监督学习之间
-
强化学习
强化学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏
-
准确率
分类正确的样本占总样本的比例
A c c u r a c y = n c o r r e c t / n t o t a l Accuracy = n_{correct} / n_{total} Accuracy=ncorrect/ntotal
n c o r r e c t n_{correct} ncorrect:正确分类的样本个数
n t o t a l n_{total} ntotal:总样本个数
-
查准率
正确被检索的样本占所有实际被检索得到的样本的比例
P = T P T P + F P P = \cfrac{TP}{TP + FP} P=TP+FPTP
T P TP TP :被选中的样本中判断是对的, F P FP FP:被选中的样本中判断是错的
-
查全率
正确被检索出的样本占所有应该检索的样本的比例
R = T P T P + F N R = \cfrac{TP}{TP + FN} R=TP+FNTP
F N FN FN:未被选中的样本中判断是错的
-
综合评价指标
F 1 = 2 ∗ P ∗ R P + R = 2 T P 样 例 总 数 + T P − T N F1 = \cfrac{2*P*R}{P + R} = \frac{2TP}{样例总数 + TP - TN} F1=P+R2∗P∗R=样例总数+TP−TN2TP
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· NetPad:一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 凌晨三点救火实录:Java内存泄漏的七个神坑,你至少踩过三个!