摘要:
集成学习 Bagging算法: Boosting: Regio Boost: 总结: 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
摘要:
推荐系统 包括两种方式—基于内容的过滤和协同过滤 隐含语义分析 Tf-idfTF—出现频率IDF—在其他文档中出现的频率,(在其他文档也经常出现,则IDF值会比较低) 向量空间模型相似度—余弦距离存在的问题LSA—隐含语义分析 PageRank L(pj)是指向其他人个数,d是参数,通常设为0.85 阅读全文
摘要:
关联规则 隐藏在大型数据集中的令人感兴趣的联系例子:关联规则的强度可以用它的支持度和置信度度量 支持度与置信度 关联规则的支持度支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。因此,支 阅读全文
摘要:
聚类 评估性能 K-Means算法 算法步骤 下面介绍EM算法思想 DBSCAN: 层次聚类: 算法思想: 课外扩展阅读材料 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
摘要:
支持向量机使用训练集的一个子集来表示决策边界,该子集称作支持向量。 线性分类器 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
摘要:
感知机—神经网络最基本的模型 感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取1和0)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中,w0 是一个偏差值,这个条件是必要的,如果没有这个条件,切平面会经过原点。我们需 阅读全文
摘要:
决策树模型 决策树是一种用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。 一旦我们构造了一个决策树模型,以它为基础来 阅读全文