数据挖掘导论

误差平方均值,越小越好

从大家直观的感受,这三个模型哪个更好?左上?右上?还是左下?

 

右上,因为左下有可能过拟合。最下面的模型过于强调特定点的误差了。噪声点也被拟合了。

我们用什么样的手段,来帮助我们发现过拟合?

拟合曲线的参数过多。分训练集和测试集,设置测试数据用于判断拟合的情况。泛化误差(模型在新样本上的误差)

奥卡姆剃刀原则 如非必要,勿增实体

MDL: Minimum Description Length,最小描述长度原则

什么是决策树

数据结构(多叉树)以二叉树为主

每个内部节点 都带一个标签,代表一个属性,表示在这个节点上

每条边带一个属性 上面的属性带某个值可以进入哪个子树

叶子节点 (分类结果的标签会在其上)数据到这里就不再分类

inference(推断) 将新到的数据(由一组属性构成,但未知其标签)从根节点开始 对应的属性值 决定在决策树往哪个子树走,到达叶子节点,以叶子节点标签作为这个record的标签,就做了一次推断

属性选择:噪声点选择、如何减枝等等

 

sum of squared error:https://www.wikihow.com/Calculate-the-Sum-of-Squares-for-Error-(SSE)

 维度灾难 维度很高数据很稀疏 置信度

数据库 索引问题B树 一维空间对数据分割

二维空间矩形 矩形树 

 

posted @ 2020-06-03 08:35  柠檬味呀  阅读(237)  评论(0编辑  收藏  举报