摘要: https://blog.csdn.net/trigl/article/details/68944434 公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 1. 什么是数据仓库 1.1 数 阅读全文
posted @ 2018-09-18 17:52 一天不进步,就是退步 阅读(7647) 评论(0) 推荐(0) 编辑
摘要: 1.基于规则的分类器 2.最近邻分类器 3.贝叶斯分类器 4.人工神经网络 5.支持向量机 6.组合方法 7.不平衡类问题 8.多类问题 阅读全文
posted @ 2018-09-18 17:51 一天不进步,就是退步 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 处理联系属性: 基于离散化的方法 基于统计学的方法 非离散化方法 处理概念分层 定义在一个特定领域的各种实体或者概念的多层组织。概念分层可以用有向无环图DAG来标示。 序列模式 可选计数方案 COBJ CWIN CMINWIN CDIST_O CDIST 子图模式 阅读全文
posted @ 2018-09-18 17:14 一天不进步,就是退步 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 关联规则的强度可以用support度和confidence(置信)度来度量 关联规则发现 给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。 关联规则挖据 频繁项集产生:其目标是发现 阅读全文
posted @ 2018-09-18 16:51 一天不进步,就是退步 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 1.分类的基本概念 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y 目标函数也称为分类模型。 2. 解决分类问题的一般方法: 决策树分类法 基于规则的分类法 神经网络 支持向量机 朴素贝叶斯分类法 3.决策树归纳 通常采用贪心策略,在选择划分数据的属性时,采用一系 阅读全文
posted @ 2018-09-18 10:44 一天不进步,就是退步 阅读(202) 评论(0) 推荐(0) 编辑