随笔分类 -  数据挖掘

摘要:遗传算法: 遗传程序设计: 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
posted @ 2020-12-13 15:42 Chen洋 阅读(105) 评论(0) 推荐(0) 编辑
摘要:集成学习 Bagging算法: Boosting: Regio Boost: 总结: 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
posted @ 2020-12-13 15:14 Chen洋 阅读(94) 评论(0) 推荐(0) 编辑
摘要:推荐系统 包括两种方式—基于内容的过滤和协同过滤 隐含语义分析 Tf-idfTF—出现频率IDF—在其他文档中出现的频率,(在其他文档也经常出现,则IDF值会比较低) 向量空间模型相似度—余弦距离存在的问题LSA—隐含语义分析 PageRank L(pj)是指向其他人个数,d是参数,通常设为0.85 阅读全文
posted @ 2020-12-13 14:32 Chen洋 阅读(78) 评论(0) 推荐(0) 编辑
摘要:关联规则 隐藏在大型数据集中的令人感兴趣的联系例子:关联规则的强度可以用它的支持度和置信度度量 支持度与置信度 关联规则的支持度支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。因此,支 阅读全文
posted @ 2020-12-13 13:12 Chen洋 阅读(239) 评论(0) 推荐(0) 编辑
摘要:聚类 评估性能 K-Means算法 算法步骤 下面介绍EM算法思想 DBSCAN: 层次聚类: 算法思想: 课外扩展阅读材料 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
posted @ 2020-12-13 11:33 Chen洋 阅读(111) 评论(0) 推荐(0) 编辑
摘要:支持向量机使用训练集的一个子集来表示决策边界,该子集称作支持向量。 线性分类器 参考文献:清华大学-数据挖掘:理论与算法(国家级精品课) 阅读全文
posted @ 2020-12-13 11:25 Chen洋 阅读(102) 评论(0) 推荐(0) 编辑
摘要:感知机—神经网络最基本的模型 感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取1和0)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面.其中,w0​ 是一个偏差值,这个条件是必要的,如果没有这个条件,切平面会经过原点。我们需 阅读全文
posted @ 2020-12-13 11:21 Chen洋 阅读(175) 评论(0) 推荐(0) 编辑
摘要:决策树模型 决策树是一种用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。 一旦我们构造了一个决策树模型,以它为基础来 阅读全文
posted @ 2020-12-13 11:05 Chen洋 阅读(247) 评论(0) 推荐(0) 编辑
摘要:什么是分类 分类是一项生存的基本技能,例如,动物对天敌和猎物进行分类。 分类是一种有监督的学习,从数据中产生模型,输入一组样本特征后,能很好地将其归为某个类别。(包括二分类和多分类) 贝叶斯定理 如下所示,用于计算B事件发生的情况下A发生的概率 朴素贝叶斯 朴素贝叶斯法是基于贝叶斯定理与特征条件独立 阅读全文
posted @ 2020-12-12 20:34 Chen洋 阅读(148) 评论(0) 推荐(0) 编辑
摘要:数据可视化(Data Visualization) 借助于图形化手段,清晰有效地传达与沟通信息。 一维数据比较简单,可以做成饼图、直方图、曲线等等…二维数据的可视化散点图,上图是汽车排量和加速度之间的关系图,我们可以对该二位数据做回归 Regression 看看它们之间有什么关系。 三维数据的可视化 阅读全文
posted @ 2020-12-12 18:25 Chen洋 阅读(214) 评论(0) 推荐(0) 编辑
摘要:数据预处理过程 数据清洗—>数据转换—>数据描述—>特征选择—>特征提取为什么要进行数据预处理原始的数据不利于直接进行数据挖掘,因为: 数据不完整 存在错误数据 数据存在重复信息 数据量过大等等。。。 如何解决丢失的数据问题 进行选择性忽视 人工补全(比如重新收集、经验填充) 自动补全(利用数据的均 阅读全文
posted @ 2020-12-12 17:43 Chen洋 阅读(357) 评论(0) 推荐(0) 编辑
摘要:什么是数据 大概的意思是一些定量或者定性的属性,比如一个人的身高体重,年龄,性别,婚姻状况等等。 数据预处理:主要包含以下主题 聚集:将两个或多个对象合并成单个对象 抽样:简单随机抽样(有放回和无放回),分层抽样,渐进抽样 维规约:通过创建新属性,将一些旧属性合并在一起降低数据集的维度。重要概念:维 阅读全文
posted @ 2020-12-12 16:57 Chen洋 阅读(447) 评论(0) 推荐(0) 编辑