随笔分类 - 数据挖掘概念与技术
摘要:1. 论数据立方体预计算的多种策略的优弊 (1)计算完全立方体:需要耗费大量的存储空间和不切实际的计算时间。 (2)计算冰山立方体:优于计算完全立方体,但在某种情况下,依然需要大量的存储空间和计算时间。 因为冰山立方体的确定在于最小支持度的确定,所以例如:如果基本立方体单元(a1,.....a60)
阅读全文
摘要:DNN,CNN,RNN:1.DNN:深度神经网络,或称多层感知机。解决早期单层感知机对于复杂函数不能模拟的情况。其形式为层之间全连接。实用sig等连续性函数模拟神经对机理的响应,训练算法使用 BP。 2.问题:只是名义上的深层。 a:随着层数的加深,优化函数更加容易陷入局部最优解。并且会越来越偏离
阅读全文
摘要:定义:相对于同方差而言。同方差:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。 产生原因在于: a.模型中缺少某些解释变量,从而系统扰动项干扰系统。 b.测量误差。一般在时间序列变量。和以平均数作为样本数
阅读全文
摘要:人工免疫相关优化算法 生物学机理:定义任何属于人体自身的组织称为自体,任何入侵的东西称为异体。产生的抗体与自身细胞结合,则取消该抗体;留下的正式抗体,如果某异体与之产生结合并达到一定的阈值,则该异体检测为抗原,予以清除。 算法思想:淘汰与抗原结合能力差的抗体,对优质抗体变异,增加抗体的多样性。 算法
阅读全文
摘要:Svm相关: 1) SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题. 2) 逻辑回归和SVM的区别在于逻辑回归采用的是logistical loss,svm采用的是hin
阅读全文
摘要:1.产生的原因 为了集成自顶向下立方体计算类Apriori剪枝和自底向上多维聚集的两个优点而设计。算法在一个称为星树的数据结构上进行操作,对该数据结构进行无损数据压缩,从而降低计算的事件和内存需求量。 2.共享维剪枝 如果共享维A的值a1,不满足冰山条件,则以a1CD/a1为根的整颗子树(包括a1C
阅读全文
摘要:1.BUC简介 BUC是自顶向下的计算。首先对输入,进行聚集得到all的值。 然后递归列举每一种情况: 例A(a1,a2,a3),B(b1,b2),C(c1,c2). (a1,*,*);(a1,b1,*);(a1,b1,c1);(a1,b1,c2)...... 此过程运用先验性质节省时间。假如(a1
阅读全文
摘要:1.冰山立方体的相关概念 部分物化的立方体成为冰山立方体,其中部分物化所使用的标准或最小阈值称为最小支持度阈值或简称为最小支持度。 冰山立方体SQL查询语句: conpute cube sales_ice as select month,city,customer_group,count(*) fr
阅读全文
摘要:1.数据立方体的有效计算 a.方体总数=∏(Li+1)(1<=i<=n)。其中Li为每个维的层数,n为维数。 b.方体的计算选择。 不物化:不预计算任何“非基本”方体。 完全物化:预计算所有方体,但是需要花费海量的空间来存储。 部分物化:有选择的计算方体的一个自己。 c.索引OLAP数据 为了提供有
阅读全文
摘要:1.数据仓库设计的四种视图 自顶向下视图:选择数据仓库所需的相关信息。这些信息能够满足当前和未来商务的需求。 数据源视图:揭示操作数据库系统收集,存储和管理的信息。这些信息可能以不同的详细程度和精度建模,存放在由个别数据源表到集成数据源表中。通常,用传统的数据建模技术,如实体-联系模型或CASE工具
阅读全文
摘要:1.数据立方体的构建 数据立方体允许从多维对数据建模和观察。 维:透视图或实体,一个维对应维表。 事实:多维数据模型由事实表表示,表项称为事实一个事实表对应一个主题。例如数据仓库sales的事实包括:销售额,销售量,预算量等。一般事实由数值标志,从而更好的分析维之间的关系。注:事实是多维数据模型中的
阅读全文
摘要:1.数据离散化和概念分层的原理和目的 通过将属性值域划分为区间,用区间标记代替实际的数值,用来减少给定连续属性值的个数。 2.离散化技术分类 例如:自顶向下:首先找出一个或几个点作为分裂点来对真个属性空间进行划分,然后再在结果区间上递归重复该过程。 自底向上:首相将所有的连续之看做分裂点,然后合并相
阅读全文
摘要:1.数据规约的意义: 对海量的而数据进行分析和挖掘,需要大量的时间,使得这种分析可能不现实或不可行。数据规约对数据集的规约表示进行分析,这样需要分析的数据少得多,但并不影响数据挖掘的效果。 2.数据规约的策略 a.数据立方体聚集:类似于前面的数据聚集,对数据立方体进行上卷和下钻,在不同抽象层次进行分
阅读全文
摘要:1.数据规范化的方法和意义 通过将属性值按照比例缩放,使之进入 一个较小的特定区间,即对属性进行规范化。方法:最小--最大规范化;z-score规范化;小数定标规范化。 a.最小--最大规范化
阅读全文
摘要:1.数据集成需考虑的问题 a.模式集成和对象匹配 b.冗余。原因一:能够用一个或一组属性导出,原因二:属性或维命名的不一致。 2.属性冗余的相关分析检测 a.数值属性计算相关系数 说明:n为元祖个数,ai,bi分别为元祖i中属性A,B的值。-A,-B分别为A和B的均值,然后是A,B的标准差,然后是A
阅读全文
摘要:1.数据清理清理什么。 缺失值,噪声,纠正数据的不一致 2.清理噪声的方法 a.分箱。对象是有序的数据。可以用箱的均值,中位数,箱边界光滑(箱中的每一个值都被据它最近的边界值代替)。 b.回归。用一个函数拟合数据进行光滑。 c.聚类。 3.数据清理作为一个过程 a.偏差检测(第一步检测。主要解决不一
阅读全文
摘要:1.数据清理: 通过填写缺失的值,光滑噪声数据,识别或删除离群点并解决不一致性来清理数据。 2.数据集成 集成多个数据库,数据立方体或文件。 由于不同的数据库同一概念的属性可能有不同的名字,或者属性值命名不一致等都会造成不一致性和冗余。所以在准备数据时应当避免数据冗余,还不仅仅是简单的组合在一起。
阅读全文
摘要:1.什么是数据挖掘 指从大量数据中提取或“挖掘”知识。 2.数据挖掘与知识发现 知识发现的迭代序列包括:数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示。在实际使用过程中,数据挖掘可代替知识发现一次使用。 3.数据存储库 (1)关系数据库。表的汇集,每个表都有唯一的名字。每个表包
阅读全文