基本概念
1.基本概念
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
2.概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
例子:
学习 “享受运动" 这一概念:
小明进行水上运动,是否享受运动取决于很多因素(这的因素就是特征值)
样例 | 天气 | 温度 | 湿度 | 风力 | 水温 | 预报 | 享受运动 |
1 | 晴 | 暖 | 普通 | 强 | 暖 | 一样 | 是 |
2 | 晴 | 暖 | 大 | 强 | 暖 | 一样 | 是 |
3 | 雨 | 冷 | 大 | 强 | 暖 | 变化 | 否 |
4 | 晴 | 暖 | 大 | 强 | 冷 | 变化 | 是 |
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
享受运动:是,否
概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预报6个属性表示。
待学习的概念或目标函数成为目标概念(target concept), 记做c。
当c(x) = 1, 享受运动时, 当c(x) = 0 不享受运动时,c(x)也可叫做y
x: 每一个实例(每一天)
X: 样例, 所有实例的集合(数天的一个集合-----比如一个月)
学习目标:f: X -> Y(由已知的状态(概念),运用算法(从已知中找的规律),推出待学习的(未知的)状态或概念)
正例(positive example),享受运动的实例
反例(negative example),不享受运动的实例
正例与反例是一个对实例分类的说法
例子:研究美国硅谷房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
样例 | 面积(平方米) | 学区 (11.2 深度学习(Deep Learning)介绍-10) | 房价 (1000$) |
1 | 100 | 8 | 1000 |
2 | 120 | 9 | 1300 |
3 | 60 | 6 | 800 |
4 | 80 | 9 | 1100 |
5 | 95 | 5 | 850 |
5.分类(classification): 目标标记为类别型数据(category),上面例子,小明游泳,布尔值的享受与否
回归(regression): 目标标记为连续性数值 (continuous numeric value),上面硅谷房价例子中的房间爱字段(连续的数值)
6.例子:
研究肿瘤良性,恶性于尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性
有监督学习(supervised learning): 训练集有类别标记(class label)
无监督学习(unsupervised learning): 无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集
7.机器学习步骤框架
7.1 把数据拆分为训练集和测试集
7.2 用训练集和训练集的特征向量来训练算法
7.3用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)
8.
100 天: 训练集(模型)
10天:测试集 (不知道是否 ” 享受运动“, 知道6个属性,来预测每一天是否享受运动)