2015 年 12月 29 日随笔档案 - sweetyu

2015年12月29日

PCA 主成分分析（Principal components analysis ）

摘要：问题 1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。 2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所阅读全文

posted @ 2015-12-29 15:11 sweetyu 阅读(23344) 评论(1) 推荐(0) 编辑

垃圾网页检测的基本原理

摘要：垃圾网页分类 1. 基于链接方式 a）连接结构 b）网页排名 2. 基于内容方式 a）排队时间(rank-time) b）查询相关(query-dependent) 3. 隐藏方式 a）内容隐藏 b）覆盖 c）重定向垃圾网页特征1.标题长度 —— 关... 阅读全文

posted @ 2015-12-29 12:48 sweetyu 阅读(518) 评论(0) 推荐(0) 编辑

数据预处理

摘要：方法：l 数据清理(Clearing)l 数据集成(Integration)l 数据变换(Transformation)l 数据归约/降维(Reduction)l 数据增维(expand)l 特征提取(generate)(1)数据清理 -- 空缺值处理 a）使用最可能的值填充空缺值，比如可以用最小二... 阅读全文

posted @ 2015-12-29 11:59 sweetyu 阅读(182) 评论(0) 推荐(0) 编辑

决策树算法

摘要： if-then规则的集合，优点是模型具有可读性，分类速度快。决策树常用的算法：ID3算法、C4.5算法、CART算法1、熵（entropy，又称信息熵）因此，熵只依赖于X的分布，与X的取值无关。熵越大，随机变量X的不确定性就越大。如果有0概率，令。单位为比特(bit)或纳特(Nat) 相关代码实现... 阅读全文

posted @ 2015-12-29 11:51 sweetyu 阅读(495) 评论(0) 推荐(0) 编辑

统计学习

摘要：同类数据具有一定的统计规律性。随机变量->数据特征；概率分布->数据规律步骤如下：过拟合——学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。M次多项式函数拟合问题泛化能力——指学习方法对未知数据的预测能力。选择经验风险与模型复杂度同时较... 阅读全文

posted @ 2015-12-29 11:32 sweetyu 阅读(307) 评论(0) 推荐(0) 编辑

sweetyu

公告