第二次作业
本次课程的课上和复习笔记我都手写记录了,我将其以pdf的形式保存在云端,老师可以下载查看。内容包括:1.模式识别的基本概念;2.基于距离的分类器;3.概率分类法;4.支持向量机(线性判据)5.人工神经网络基础
链接:https://pan.baidu.com/s/1tegmqXK715U1scg1xQwklg
提取码:yzpf
课程总结和心得
这段时间我把本次课程又重新回顾了一下,总的来说,第一章是基础,其余章节都是介绍模型方法,应用场景、理论推导、优化过程、算法等,每章都可独立阅读而不受其他章节影响。如果只是每一章都看完,顶多就是了解了一种方法,相互之间是割裂的,这样当碰到一个实际问题,仍然无法获得思路完整的求解方法,因而有必要在阅读时就要有意识甚至刻意的建立起知识架构。机器学习一般解决问题的步骤包括如下:
1. 数据抽象
将数据集和具体问题抽象成数学语言,用恰当的数学符号表示,这样方便描述和解决问题。
2. 设定性能度量指标
机器学习主要工作就是产生一个合适的模型。一般来说模型都有误差。如果模型学的太好,把训练样本自身的一些特点当成所有样本具有的潜在一般性质,这种情况称为过拟合,这样的模型在面对新样本时就会出现较大误差,也就是是模型的泛化性能下降。不同的性能度量会导致不同的评判结果,好的性能度量能够直观的显示模型的好坏,同时也能看到不同模型,或者模型在不同参数下对解决问题的程度好坏。还包括一些其他的指标,包括混淆矩阵,RP曲线,ROC曲线,AUC等。这块内容在第一章最后一节课讲到。
3.数据的预处理
拿到的数据集可能存在诸多问题,我们要先对这些问题进行处理,再使用这些数据如:
- 样本属性太多:我们可以对数据进行降维或特征选择
- 样本数量不足:这种情况在图片数据中常见,我们可以对图片进行各种处理,如:旋转、调节对比度等
总的来说,数据预处理是一个非常重要的过程,实际上数据预处理往往会和模型选择结合在一起。
4.模型选择
-
基于距离的分类器
把测试样本到每个类之间的距离作为决策依据,将测试样本判定为与其距离最近的类,这里主要是MED分类器和MICD分类器。
-
基于概率的分类
有MAP分类器,Bayes分类器,KNN分类器
-
线性判据
重点介绍了串行感知机和并行感知机,重点介绍了SVM
5. 训练和优化
选定了模型,如何训练和优化也是一个重要问题。
- 如果要评估训练集和验证集的划分效果,常用的有留出法、交叉验证法、模型调参等
- 如果模型计算时间太长,可以考虑剪枝
- 如果是过拟合,则可通过引入正则化项来抑制(补偿原理)
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· ASP.NET Core 模型验证消息的本地化新姿势
· ThreeJs-16智慧城市项目(重磅以及未来发展ai)
· .NET 原生驾驭 AI 新基建实战系列(一):向量数据库的应用与畅想
· Ai满嘴顺口溜,想考研?浪费我几个小时
· Browser-use 详细介绍&使用文档
· 软件产品开发中常见的10个问题及处理方法
2018-05-05 2017级面向对象程序设计 作业二