机器学习(1)--基础知识
基础知识
基本术语
有所了解:
- 数据集 : 100个西瓜
- 样本 : 一个西瓜
- 特征向量(我们把一个示例(样本)称为一个特征向量)
- 样本空间
- 颜色、大小、敲起来的振幅......
- 维度
- 属性(反映事件或对象在某方面的表现或性质的事项如:色泽、根蒂、敲声,称为属性或特征;)
- 颜色
- 属性值(属性上的取值如青绿、乌黑......)
通过某种学习算法
- 学习
- 训练
得到模型
-
有监督学习
- 分类 (分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。)
- 二分类(西瓜的例子【西瓜的好坏】是一个二分类问题)
- 多分类(多分类指的是数据不止两个类别,它有多个类别。)
- 回归(机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。)
- (回归任务的目标是预测一个连续值,编程术语叫作浮点数。)如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。
- 分类 (分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。)
-
无监督学习
- 聚类(聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。)
我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签。
假设空间
科学推理手段
归纳
从一般到特殊
演绎
从特殊到一般
归纳偏好
同一个数据训练出不同的数据模型
原则:奥卡姆剃刀-->选最简单的那个
模型评估与选择
一种训练集一种算法
经验误差与拟合
简述手写数字识别为例:
- m为样本数量
- Y为样本正确结果
- Y'为预测样本结果数量
- a个发生错误
- 精度:
- 误差:
评估方法
- 训练集,验证集与测试集
- 训练集
- 测试集
- 留出法
- k折交叉验证
- 自助法
- 验证集
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?