随笔分类 -  数据挖掘

摘要:数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。 Python 的胶水特性:Python 可以粘合其它语言代码段。 一、数据获取手段 1)数据仓库 将所有业务数据汇总处理,构成数据仓库(DW); 特点: 2)监测与抓取 监测:利用设备和算法直接获取数据;(如传感器、网络等 阅读全文
posted @ 2019-03-06 21:06 何永灿 阅读(1768) 评论(0) 推荐(0) 编辑
摘要:一、概述 二、中心趋势度量:均值、中位数、众数、中列数 也就是度量数据分布的中部或中心位置。(给定一种属性,它的值大部分落在何处) 频率:区间内数值的个数。 1)均值(mean) 数据集“中心”的最常用、最有效的数值度量是均值。 均值对应于关系数据库系统提供的内置聚集函数 average(SQL 的 阅读全文
posted @ 2018-12-13 02:31 何永灿 阅读(2816) 评论(0) 推荐(0) 编辑
摘要:一、概述 二、标称属性(nominal attribute) 1)特点 2)其它 # 例:hari_color(头发颜色)、marital_status(婚姻状况)、occupation(职业),都是标称属性,表示对象的特征。 三、二元属性(binary attitute) 1)特点 2)其它 四、 阅读全文
posted @ 2018-12-07 00:32 何永灿 阅读(10819) 评论(0) 推荐(0) 编辑
摘要:定义 数据挖掘:从大量数据中挖掘有趣模式和知识的过程。 一、知识发现过程 1)数据预处理 1、数据清理:消除噪声和删除不一致数据; 2、数据集成:多种数据源组合在一起。 3、数据选择:从数据库中提取与分析任务相关的数据。 4、数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。 2)数据 阅读全文
posted @ 2018-12-05 16:38 何永灿 阅读(2120) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示