《驾驭大数据》读书笔记
花费一个礼拜的时间把驾驭大数据这本书看完了,书不是很厚,200多页。(写读书笔记又花费了我一个礼拜的时间……………)
就像前言里讲的那样,书里并没有涉及到太多余技术相关的内容,感觉比较遗憾,
书一共分为了4个部分
第一部分 大数据的兴起
第二部分 驾驭大数据:技术,流程以及方法
第三部分 驾驭大数据:人和方法
第四部分 整合:分析文化
第一部分 大数据的兴起
什么是大数据,大数据为什么重要
大数据有两个比较好的定义,一个是根据麦肯锡全球数据数据分析研究所的定义:大数据是指大小超出了典型数据库软件工具收集,储存,管理和分析能力的数据集。
另一个是Gartner公司的Merv Adrian在一篇文章上说的:大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户手机,管理和处理数据的能力。
所以大数据的界定会随着技术的进步而变化,今天的大数据将不再是明天的大数据,
大数据的大不仅仅体现在容量上,还体现在多样性,速度计复杂度等方面
大数据中的大和数据都不是大数据中最重要的,重要的是如何来使用这些大数据。
大数据有结构化的,非结构化的和半结构化的。
很多大数据其实并不重要,某些信息具有长期的战略价值,某些信息只具有临时的战术价值,而另外一些信息则毫不价值。
征服大数据并不意味着要控制所有的数据,它就像从吸管中吸水一样, 仅仅吸取哪些重要的不规范就可以了。
大数据最令人激动的部分是,当它和其他的数据结合以后带来的业务价值
网络数据:原始的大数据
隐私是关于网络数据的最主要的考虑,在制定这些数据如何被使用的政策时,一定要小心谨慎。这些政策一定要被严格的执行和遵守
网络数据使得推荐视频,流失模型,响应模型,顾客分类,顾客搜索及在线广告分析等方面都取得了更好的效果
典型大数据源及其价值
无线射频标签,即RFID标签
汽车保险业:车载信息服务数据的价值
多个行业:文本数据的价值
多个行业:时间数据与位置数据的价值
零售制造业:RFID数据的价值
电力行业:智能电网数据的价值
博彩业:筹码跟踪数据的价值
工业发动机和设备:传感器数据的价值
视频游戏:遥测数据的价值
电信业与其他行业:社交网络数据的价值
虽然各行各业都有广泛的大数据源,但他们仍有一些共同的主题,虽然目的不同,但各行各业都使用了相同的底层技术,如RFID。
文本数据是最大的,也是应用最广泛的一类大数据源。一般来说。一般来说,我们关心的是如何从文本数据中提取到重要的事实,然后如何使用这些事实作为其他分享流程的输入。
第二部分 驾驭大数据:技术,流程以及方法
分析可扩展性的演进
ETL过程是Extract(提取),Transform(转换)和Load(加载)
最开始,数据库都是为了某一个特定目的或团队构建的,企业里通常存在许多不同的关系型数据库。这些单一目的的数据库通常被称为“数据集市”。当许多企业还在忙着使用数据集市的时,一些领先的公司看到了把不同数据集市集中到一个大系统的价值,这个大系统叫做企业级数据仓库 (Enterprise Data Warehouse)
在数据所处的地方进行分析,而不是把数据拿到分析的地方去,这就是库内分析的概念
海量并行处理系统(Massively Parallel Processing,MPP)打破了数据被仅拥有一个CPU单元和磁盘的中央服务器进行管理的限制。MPP系统中的数据被切分导入一系列的服务器中,储存在不同CPU单元管理的不同磁盘里
分析专家可以使用MPP数据库来完成数据准备和评分,具体方法至少有4种,(1)直接提交SQL,(2)自定义函数(UDF),(3)嵌入式过程,(4)预测建模标记语言(PMML)
MapReduce是一种并行的编程架构,是对现有技术的补充
MapReduce里程序员们内置了两个主要的处理过程:映射过程map以及归纳过程reduce,类似于MPP系统,MapReduce也会把数据分配到不同的通用设备上进行处理,每一个MapReduce节点都会使用同样的代码对自己管理的那部分数据进行处理。区别在于,MapReduce的节点之间不会发生信息交互,甚至不知道彼此的存在。
MapReduce环境的一个突出特点是处理各种非结构化话文本的能力
MapReduce并不是数据库,它没有内置的安全机制,没有索引,没有查询或处理过程的优化机制,没有其他已完成任务的历史信息,也不知道其他节点拥有的数据内容。
MapReduce提供了一种灵活处理各类数据的方式,同时,它也很有责任去准确定义或描述每一个处理过程中产生的数据。
在驾驭大数据的分析生态环境中,海量并行关系型数据库,云计算,MapReduce都可以发挥重要的作用,可以将这3项技术整合起来使用,并从大数据中获得更大的价值
公有云并不提供性能承诺,数据安全必须被严格监管,因为数据已经脱离了企业的直接控制
一旦企业内公有云被广泛的使用,使用公有云的成本将可能超过内部构件的自有系统
私有云在一个安全的环境下提供了灵活性,这对于大型企业有重要的意义
网格计算可以完成一些无法直接交给单一数据库处理的超大型任务。网格计算将被越来越广泛的使用,且功能变得更加强大。
分析流程的演进
分析环境中沙箱就是一个资源组,沙箱还有一个名字叫做敏捷分析云或数据实验室。
分析沙箱对于分析专家而言,有以下几个好处
独立
灵活性
效率
自由
速度
分析沙箱对于IT人员有以下几个好处
集中化
流水线作业
简化
控制
降低成本
从企业数据仓库或数据集市中划分出一块区域形成的分析沙箱,就是内部分析沙箱
内部沙箱的一个优势是,它可以利用现有的硬件资源和基础设施;能显著降低成本;最大的优势的可以直接把生产环境的数据域沙箱的数据进行关联分析。
内部分析沙箱也有缺点。第一,数据导入企业数据仓库或数据集市后,还要把数据导入沙箱中,这增加了工作量。其次,沙箱会占用系统的储存空间与CPU资源(可能是很大的一部分资源)
还有一个缺点是,内部分析沙箱受到生产环境管理政策与流程的限制。例如,如果周一早晨生产报表的任务会占用全部系统资源,那么此时分析沙箱用户就没有足够的资源可以使用了。
外部分析沙箱是一个屋里独立的分析环境,用于测试和开发各类分析流程。
通常外部分析沙箱是混合式分布沙箱的一个组成部分。
外部分析沙箱的最大优势是它的架构简单,另一个优点是减少了系统负载管理
外部分析沙箱的主要缺点是作为沙箱平台的独立系统带来的成本增加。另一个缺点是,外部分析沙箱需要进行数据迁移。
混合式分别沙箱是内部沙箱和外部沙箱的组合。他允许分析专家利用生产系统计算能力的灵活性,有保留的外部系统可以执行数据库难以完成某些高级探索任务的优点
混合式分布沙箱最大的优点是同时具有内部沙箱和外部沙箱两个环境的优点,还有处理某些复杂分析时无与伦比的灵活性,另外的一个优点是在分析流程已近开发完成,生产系统进行全面部署前,
可以构建一个临时性的“模拟生产系统”来进行测试。
混合是环境的缺点相当于内部沙箱和外部沙箱缺点的汇总,此外还增加了一些新的缺点。一个缺点是需要同时管理维护内部沙箱与外部沙箱两个环境,另一个缺点是,可能需要建立两个不同的数据导入流程
这增加了系统的复杂性。
分析数据集(Analytic Data Set)是为了支持某个分析或模型而汇集在一起的数据,且它的数据格式满足特定分析的要求。
目前主要有两种分析数据集
开发分析数据集是支持分析任务的ADS。它拥有解决问题可能需要的全部变量,所以它会非常宽,但不会很深。
生产分析数据集刚好相反,它通常用于各种评分与模型部署,它只包含最终解决方案必须的特定数据,所以生产数据集不宽,但一定会很深。
Enterprise Analytic Data Set(EADS)企业分析数据集是可共享的,可复用的,集中化的,标准化的,用于分析的数据集
EADS所做的事就是把成百成千个变量汇总到某些数据表和视图内。这些数据表和视图可供分析专家,不同应用,不同用户共同使用。EADS的结构是一张大宽表,也可以是关联在一起的多张表
EADS有利于协作,因为每一个分析专家都可以共享同样的,一致的数据。
EADS最重要的一个优点是保证了不同分析工作的数据的一致性。
企业分析数据集的关键特性包括以下几点:
一个标准数据视图可以支持不同的分析任务
一种能显著加快数据准备过程的方法
一种为分析流程提供了更高一致性,更精确。更具可视化的数据的方式
除了使用高级分析流程外,一个帮助应用程序和分析专家开启新视图的方式
可以让分析专家专注于分析本身
假如你要在某一个业务领域做大量的分析,且分析还会越来越多,那么你就应该创建企业分析数据集
分析数据集的一种实现方式是建立一个汇总表,另一种实现方式是建立一系列的概要视图来实时生成EADS
嵌入式评分过程可以部署在沙箱环境或者EADS环境内,并提供了评分程序,这些程序可以很容易被各种用户和应用访问
嵌入式评分的实现过程包括SQL,UDF,嵌入式过程或者PMML
如果企业开始广泛的使用模型,那么就应该建立模型和评分管理流程
模型与评分管理系统有4个主要部件:输入分析数据集,模型定义,模型验证与报表制作,模型评分输出
分析工具与方法的演进
简易模型定义为一种降低部分预测效果从而加快模型构建过程的分析方法
组合模型利用了群体的智慧,通过组合多种方法的预测结果,最终获得了比每种方法都要好的结果
简易模型的目标的快速并尽量自动化地开发一个足够好的模型,而模型是否最优,所有的精力是否用尽,这些并不是关注的重点,
文本分析的一个巨大的挑战是,仅仅词语本身并不能说明全部问题,因为在文本中没有包含重音,语调和变调等信息
用户界面是分析专家提升生产力的工具,前提是这些分析专家知道自己在做什么,并确保该工具能“最适当的”工作,在友好的使用界面下其实更容易把事情搞砸
单点分析解决方案专注于一个具体领域的分析,如欺诈或或定价,并在该领域内进行深入分析。这些工具的影响力在不断的提升
R是一个开源分析工具,近年来被越来越多的使用,R的一个优点的在软件中增加新算法的速度,它的一个缺点是其目前缺乏企业级的分析可扩展性
数据可视化的重点不是华丽的图形,而是如何对数据进行展示,以获得对分析结论更深入的理解
第三部分 驾驭大数据:人和方法
如何提供优质分析
报表不是分析。生成报表通常是分析的开始,如果被恰当的使用,分析和报表能够互相促进,相得益彰
定义报表的关键因素有:
报表能够将所需的数据反馈给使用者
数据将以标准的,预定义的格式呈现
在生成报表的过程中,除了通过报表请求报表的使用者外,没有其他人参与
报表不够灵活
定义分析的关键因素有:
分析提供问题的答案
分析流程要执行许多必要的步骤来获得问题的答案
因此,分析是为解决特定问题定制的
分析需要一个指导分析流程的人
分析流程是灵活的
分析的G.R.E.A.T原则
导向性(GUIDE)
相关性(RELEVANT)
可解释性(EXPLAINABLE)
可行性(ACTIONABLE)
及时性(TIMELY)
企业进行分析时最糟糕的一种方式是,只选取有益的结论而忽视不利的结论,这样的行为完全违背了分析的目的,也不会带来任何的价值
分析最重要的部分是,在事情发生之前作出判断,能否建立对正确问题的分析框架会直接影响到分析工作的成败
统计显著性不同于业务重要程度,不要通过统计测量方法来判断分析结果的主要程度
统计显著性测试只是提供了正确的概率。把显著性水平测试结果中较小的那部分概率与实际的错误联系起来
如何成为优秀的分析专家
评判优秀的分析专家时,承诺,创造力,商业头脑,演讲能力与沟通技巧,直觉都是关键因素,但这些因素往往会被人们认为并不重要
优秀的分析专家关心的是如何完善业务,而非使之完美,知道分析结果何时已经足以支撑业务决策是非常重要的,然后着手解决下一个问题
优秀的分析专家会把所需的数据准确度和决策粒度完美的结合起来,不完美的数据仍然可以有效的回答许多技术问题
最优秀的分析专家不仅是掌握数据的科学家还是数据处理的艺术家,这一点足以让很多人惊讶,不要低估艺术才华对于优秀分析专家的重要程度
如何打造优秀的分析团队
大多数组织先从分布式的,职能型的分析团队组织开始,时间久了以后,可以转化成集中式的或者混合式的组织结构
可以考虑采用矩阵式结构来做分析项目,矩阵式结构要有一个强有力的领导来监督每个项目成员的工作
分析管理人员要保持自己的技能,要能像星球大战里的尤达大师大洋,既可以亲自战斗,又可以管理团队
第四部分 整合:分析文化
促进分析创新
分析创新需要着眼于分析新的数据源,解决新的问题或者两者的结合,它不是对现有过程或方法的简单扩展
根据定义,创新性的想法具有风险,并且无法被完全的理解,需要用迭代,灵活的方法驱动创新分析,并在实践过程根据需要不断地调整计划
不要使分析创新中心涉及生产过程,也不要让其对验证过的原型进行完全的开发,分析创新中心的职责范围仅限于原型
快速识别超出分析创新中心中的失败,这样分析团队可以继续研究其他的问题
营造创新和探索的文化氛围
有三条广为应用的原则,适用于高级分析和大数据,它们是:(1)打破思维定势,(2)形成连锁反应,(3)统一行动目标
根据思维定势做事不见得不好,但是,你必须经常挑战你的思维定势以确定之前的限制,这样才能避免不必要的约束了自己
不要把目光集中在提升速度上,还要开始寻找以前不能使用而现在可以使用的新分析
为目标设定优先级为达成愿景所采用的战略和战术有非常大的影响。确保在分析开始之前已经有了明确的优先目标
posted on 2014-03-18 11:19 magicsoar 阅读(1349) 评论(0) 编辑 收藏 举报