Data Mining | 数据挖掘技术基础与进阶
目录
1 数据挖掘技术基础
1.1 描述性统计分析
在现实工作中,不是所有的问题都需要用建模来解决,一些简单的问题如果能用简单方法,就不要使用复杂的解决方案。这样既提升了效率,也减少了出错的可能。即使是非常复杂的问题,我们往往也需要首先用简单的方法,对问题进行一个概括和总览 —— 描述性统计。
描述性统计,是指用图(直方图、散点图…)或表来对数据总体中有关变量进行统计,包括频数分析、集中趋势分析、离散程度分析、数据分布、统计图形。
- 频数:利用频数分析和交叉频数分析可以检验异常值
- 集中趋势:反映数据的一般水平,常用指标有均值、中位数、众数
- 离散程度:反映数据之间的差异程度,常用指标有方差、标准差、四分位数、最大值、最小值
- 分布:用偏度、峰度两个指标来检查样本数据是否符合正态分布tt
- 统计图形:用直方图、散点图…能更清晰展现数据规律
在实际应用中(如数据EDA分析),常把变量分为连续型和离散型,描述性统计分析常用的统计量有:
- 离散型:统计频数、百分比、累计频数、累计百分比
- 连续型:根据实际需要考虑是否需要对变量离散化,再进行统计
- 离散化:和离散型变量一样,统计频数、百分比、累计频数、累计百分比
- 不离散化:统计非缺失数、缺失数、第1百分位数、第10百分位数、第25百分位数、第50百分位数、第75百分位数、第90百分位数、最小值、最大值、均值、标准差
2 数据挖掘技术进阶
2.1 数据挖掘算法
数据挖掘中用到的算法,可以从算法理论层面、算法学习方式、算法学习任务三个角度进行分类。
2.1.1 分类一:算法理论层面
数理统计算法,建模一般流程遵循①假设检验 → ②建模参数选择 → ③构建模型 → ④假设检验评估模型 → ⑤参数调优 这5个步骤。而机器学习算法建模,一般流程是一个循环往复、不断迭代、不断优化的过程,详见下图:
在实际应用场景中,虽然数理统计算法是基于统计学,但它们也常常用机器学习的建模思路进行应用。总之,特征是对客观世界的抽象,算法则是对事物运行规律内嵌逻辑的还原,算法作用于特征从而无限逼近客观事物运行规律的过程,则是机器学习或者数据挖掘的过程。
2.1.2 分类二:算法学习方式
2.1.3 分类三:算法学习任务
各种算法的学习任务,本质就是数据挖掘的任务,上述学习任务可分为两大类:
- 描述型数据挖掘:是对现有数据特征的呈现,没有标签(无监督)。如关联规则、序列模式、聚类
- 预测型数据挖掘:是是对未来趋势的预测,数据有标签(有监督)。如分类、回归
2.2 数据挖掘技术的绩效增益
思考一个问题:数据挖掘是如何提升业务的?一般来说,提高业务绩效有三种方法——创意、优惠、名单。名单指的是营销活动的具体对象,如根据名单向客户进行营销活动,提高客户的购买概率,进而提高营销活动的绩效。创意和优惠这两种方法,主要是通过人力,物力,财力等实现,而名单这种方法则是通过数据挖掘技术实现的,可见数据挖掘技术的绩效增益,主要是通过向使用者提供“名单”得以实现的。