【数据分析 R语言实战】学习笔记 第一章 数据分析导引

1.1数据分析概述

1.1.1数据分析的原则

(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。

(2)数据分析是为了挖掘更多的问题,并找到深层次的原因。

(3)不能为了做数据分析而做数据分析。

1.1.2数据分析的步骤

(1)探索性数据分析EDA

从多种渠道获得了大量的可能杂乱无章、看不出规律的数据的时候,首先需要在没有多少经验的情况下第一次对其进行仔细的分析。这时就需要进行探索性数据分析(EDA: Exploratory Data Analysis)

(2)模型选定分析

在探索性分析的基础上,通过定量分析方法,提出一类或几类可能的模型,然后通过进一步的分析,从中挑选一类适合的模型。

(3)推断分析

通常使用数理统计方法,进行一系列的计算和分析,对所确定的模型或估计的可靠程度和精确程度做出推断。

1.1.3数据分析的过程

(1)明确目标

明确目标是数据分析的出发点。明确数据分析的目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析做好准备。

(2)收集数据

收集数据当然是要正确地收集数据,正确的数据对于实现数据分析目标将起到关键性的作用。正确收集数据是指从分析目标出发,排除干扰因索,正确收集服务于既定分析口标的数据。排除数据中那些与目标不关联的干扰因素是数据收集中的重要环节。数据分析并不仅仅是对数据进行数学建模,收集的数据是否真正符合数据分析的目标,其中是否包含了其他因素的影响,影响程度怎样,应如何剔除这些影响等问题都是数据分析过程中必须注意的重要问题。

(3)加工整理

在明确数据分析日标基础上收集到的数据,往往还需要对其进行必要的加工整理,而后才能真正用于分析建模。数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,这是进一步深入分析和建模的基础。

(4)选择方法

数据加工整理完成后一般就可以进行进一步的数据分析了。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。另外,统计分析软件的不断普及和应用中的不求甚解也会加重这种现象。

(5)解释结果

数据分析的直接结果是统计量和统计参数。

1.1.4数据分析的对象

关系型数据库、事务型数据库、面向对象的数据库

数据仓库/多维数据库

空间数据(如地图信息)

工程数据(如建筑、集成电路的信息)

文木和多媒体数据(如文本、图像、音频、视频数据)

时间相关的数据(如历史数据或股票交易数据)

万维网(如半结构化的HTML、结构化的XML以及其他网络信息)

1.2大数据分析

1.2.1大数据分析的流程

常见的大数据处理流程,可以概括为四步:数据采集、预处理、统计和分析以及数据挖掘。

(1)数据采集

大数据的采集主要是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

(2)预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群中,并且可以在导入的基础上做一些简单的清洗和预处理工作。

(3)统计和分析

统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计和分析这个环节的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)数据挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。数据挖掘的特点和挑战主要是由于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大。

1.2.2大数据分析的基本方面

(1)预测性分析能力

预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断,在此基础上,进一步的数据分析、数据挖挖掘以让分析员更好地理解数据。

(2)数据质量和数据管理

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理,可以保证一个预先定义好的高质量的分析结果。

(3)可视化分析

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据,让数据自己说话,让观众看到结果。

(4)语义引擎

大数据中非结构化的数据日益增多,非结构化数据的多样性带来了数据分析新的挑战,需要一系列的工具去解析、提取及分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

(5)数据分析挖掘算法

可视化是给人看的,数据分析挖掘就是给机器看的。集群分析、分割分析、孤立点分析还有其他的算法让我们可以深入数据内部,挖掘价值。

posted @ 2015-05-14 09:28  机器学习算法与Python  阅读(1913)  评论(2编辑  收藏  举报