数据挖掘导论
误差平方均值,越小越好
从大家直观的感受,这三个模型哪个更好?左上?右上?还是左下?
右上,因为左下有可能过拟合。最下面的模型过于强调特定点的误差了。噪声点也被拟合了。
我们用什么样的手段,来帮助我们发现过拟合?
拟合曲线的参数过多。分训练集和测试集,设置测试数据用于判断拟合的情况。泛化误差(模型在新样本上的误差)
奥卡姆剃刀原则 如非必要,勿增实体
MDL: Minimum Description Length,最小描述长度原则
什么是决策树
数据结构(多叉树)以二叉树为主
每个内部节点 都带一个标签,代表一个属性,表示在这个节点上
每条边带一个属性 上面的属性带某个值可以进入哪个子树
叶子节点 (分类结果的标签会在其上)数据到这里就不再分类
inference(推断) 将新到的数据(由一组属性构成,但未知其标签)从根节点开始 对应的属性值 决定在决策树往哪个子树走,到达叶子节点,以叶子节点标签作为这个record的标签,就做了一次推断
属性选择:噪声点选择、如何减枝等等
sum of squared error:https://www.wikihow.com/Calculate-the-Sum-of-Squares-for-Error-(SSE)
维度灾难 维度很高数据很稀疏 置信度
数据库 索引问题B树 一维空间对数据分割
二维空间矩形 矩形树