摘要: 问题 1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所 阅读全文
posted @ 2015-12-29 15:11 sweetyu 阅读(23344) 评论(1) 推荐(0) 编辑
摘要: 垃圾网页分类 1. 基于链接方式 a)连接结构 b)网页排名 2. 基于内容方式 a)排队时间(rank-time) b)查询相关(query-dependent) 3. 隐藏方式 a)内容隐藏 b)覆盖 c)重定向垃圾网页特征1.标题长度 —— 关... 阅读全文
posted @ 2015-12-29 12:48 sweetyu 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 方法:l 数据清理(Clearing)l 数据集成(Integration)l 数据变换(Transformation)l 数据归约/降维(Reduction)l 数据增维(expand)l 特征提取(generate)(1)数据清理 -- 空缺值处理 a)使用最可能的值填充空缺值,比如可以用最小二... 阅读全文
posted @ 2015-12-29 11:59 sweetyu 阅读(182) 评论(0) 推荐(0) 编辑
摘要: if-then规则的集合,优点是模型具有可读性,分类速度快。决策树常用的算法:ID3算法、C4.5算法、CART算法1、熵(entropy,又称信息熵)因此,熵只依赖于X的分布,与X的取值无关。熵越大,随机变量X的不确定性就越大。如果有0概率,令。单位为比特(bit)或纳特(Nat) 相关代码实现... 阅读全文
posted @ 2015-12-29 11:51 sweetyu 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 同类数据具有一定的统计规律性。随机变量->数据特征;概率分布->数据规律步骤如下: 过拟合——学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。M次多项式函数拟合问题泛化能力——指学习方法对未知数据的预测能力。 选择经验风险与模型复杂度同时较... 阅读全文
posted @ 2015-12-29 11:32 sweetyu 阅读(307) 评论(0) 推荐(0) 编辑