【转载】大数据架构和模式

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.html

第 1 部分: 大数据分类和架构简介

概述

大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征，包括数据的频率、量、速度、类型和真实性。处理并存储大数据时，会涉及到更多维度，比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战，因为需要考虑非常多的因素。

这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要，所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。

业务问题	大数据问题	描述
公用事业：预测功耗	机器生成的数据	公用事业公司推出了智慧仪表，按每小时或更短的间隔定期测量水、天然气和电力的消耗。这些智慧仪表生成了需要分析的大量间隔数据。公用事业公司还运行着昂贵而又复杂的大型系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。要提高操作效率，该公司必须监视传感器所传送的数据。大数据解决方案可以使用智慧仪表分析发电（供应）和电力消耗（需求）数据。
电信：客户流失分析	Web 和社交数据交易数据	电信运营商需要构建详细的客户流失模型（包含社交媒体和交易数据，比如 CDR），以跟上竞争形势。流失模型的值取决于客户属性的质量（客户主数据，比如生日、性别、位置和收入）和客户的社交行为。实现预测分析战略的电信提供商可通过分析用户的呼叫模式来管理和预测流失。
市场营销：情绪分析	Web 和社交数据	营销部门使用 Twitter 源来执行情绪分析，以便确定用户对公司及其产品或服务的评价，尤其是在一个新产品或版本发布之后。客户情绪必须与客户概要数据相集成，才能得到有意义的结果。依据客户的人口统计特征，客户反馈可能有所不同。
客户服务：呼叫监视	人类生成的	IT 部门正在依靠大数据解决方案来分析应用程序日志，以便获取可提高系统性能的洞察。来自各种应用程序供应商的日志文件具有不同的格式；必须将它们标准化，然后 IT 部门才能使用它们。
零售：基于面部识别和社交媒体的个性化消息	Web 和社交数据生物识别	零售商可结合使用面部识别技术和来自社交媒体的照片，根据购买行为和位置向客户提供个性化的营销信息。此功能对零售商忠诚度计划具有很大的影响，但它具有严格的隐私限制。零售商需要在实现这些应用程序之前进行适当的隐私披露。
零售和营销：移动数据和基于位置的目标	机器生成的数据交易数据	零售商可根据位置数据为客户提供特定的促销活动和优惠券。解决方案通常旨在在用户进入一个店铺时检测用户的位置，或者通过 GPS 检测用户的位置。位置数据与来自社交网络的客户偏好数据相结合，使零售商能够根据购买历史记录针对性地开展在线和店内营销活动。通知是通过移动应用程序、SMS 和电子邮件提供的。
FSS、医疗保健：欺诈检测	机器生成的数据交易数据人类生成的	欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性。解决方案可实时分析事务，生成建议的立即执行的措施，这对阻止第三方欺诈、第一方欺诈和对帐户特权的蓄意滥用至关重要。解决方案通常旨在检测和阻止多个行业的众多欺诈和风险类型，其中包括：信用卡和借记卡欺诈存款帐户欺诈技术欺诈坏账医疗欺诈医疗补助计划和医疗保险欺诈财产和灾害保险欺诈工伤赔偿欺诈保险欺诈电信欺诈

行业	示例用例
电子商务和在线零售	电子零售商（比如 eBay）在不断创建针对性产品来提高客户终生价值 (CLV)；提供一致的跨渠道客户体验；从销售、营销和其他来源收获客户线索；并持续优化后端流程。推荐引擎：通过基于对交叉销售的预测分析来推荐补充性产品，增加平均订单大小。跨渠道分析：销售属性、平均订单价值和终生价值（例如多少店内购买活动源自特定的推荐、广告或促销）。事件分析：那一系列步骤（黄金路线）得到了想要的结果（例如产品购买或注册）？ “恰当时机的恰当产品” 和 “下一款最佳产品”：结合部署预测模型和推荐引擎，得到自动化的下一款最佳产品和跨多个交互渠道的经调整的交互。
零售和专注于客户	推销和市场篮分析营销活动管理和客户忠诚度计划供应链管理和分析基于事件和行为的目标市场和用户细分预测分析：在将产品放在货架上之前，零售商希望预测可能对购买者至关重要的一些因素
金融服务	合规性和监管报告风险分析和管理欺诈检测和安全分析 CRM 和客户忠诚度计划信用风险、评分和分析高速套利交易交易监管异常交易模式分析
欺诈检测	欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性，帮助提高客户带来的利润。解决方案将会实时分析交易，生成立即行动建议，这对阻止第三方欺诈、第一方欺诈和帐户特权的蓄意滥用至关重要。解决方案通常设计用于跨多个行业检测和阻止各种各样的欺诈和风险类型，这些类型包括：信用卡和借记卡欺诈存款帐户欺诈技术欺诈和坏账医疗欺诈医疗补助计划和医疗保险欺诈财产和灾害保险欺诈工伤赔偿欺诈保险欺诈
Web 和数字媒体	我们目前处理的许多数据是增多的社交媒体和数字营销的直接后果。客户生成一连串可挖掘并投入使用的 “数据废气”。大规模单击流分析广告投放、分析、预测和优化滥用和单击欺诈预防社交图分析和概要细分营销活动管理和忠诚度计划
公共领域	欺诈检测威胁检查网络安全合规性和监管分析能耗和碳排放管理
健康和生命科学	健康保险欺诈检测营销活动和销售计划优化品牌管理患者护理质量和程序分析医疗设备和药物供应链管理药品发现和开发分析
电信	收入保障和价格优化客户流失预防营销活动管理和客户忠诚度呼叫详细记录 (CDR) 分析网络性能和优化移动用户位置分析
公用事业	公用事业公司运行大型、昂贵、复杂的系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。效率意味着密切关注从传感器传来的所有数据。公用事业公司现在正利用 Hadoop 集群来分析分析发电（供应）和电力消耗（需求）数据。智慧仪表的采用导致前所未有的数据流汹涌而来。大多数公用事业公司都未做好充分准备在开启仪表后分析该数据。
媒体	在有线行业，大型有线运营商（比如 Time Warner、Comcast 和 Cox Communications）每天都可以使用大数据来分析机顶盒数据。可以利用此数据来调整广告或促销活动。
杂项	Mashup：移动用户位置和精度目标机器生成的数据在线约会：一个领先的在线约会服务使用复杂的分析来度量各个成员之间的兼容性，以便建议匹配的商品在线游戏飞机和汽车的预测性维护

解决方案模式	复合模式
入门	存储和探索
获得高级业务洞察	专用和预测分析
采取下一个最佳行动	可操作的分析

【转载】大数据架构和模式

第 1 部分: 大数据分类和架构简介

概述

从分类大数据到选择大数据解决方案

试用 IBM 大数据解决方案

依据大数据类型对业务问题进行分类

表 1. 不同类型的大数据业务问题

使用大数据类型对大数据特征进行分类

图 1. 大数据分类

结束语和致谢

第 2 部分: 如何知道一个大数据解决方案是否适合您的组织

简介

我的大数据问题是否需要大数据解决方案？

大数据，曾几何时似乎很少出现

维度可帮助评估大数据解决方案的可行性

图 1. 评估大数据解决方案的可行性时要考虑的维度

业务价值：可通过大数据技术获取何种洞察？

表 1. 来自各行各业的示例用例

确定数据的优先级

我当前的环境能否扩展？

扩展我当前的环境的成本是多少？

对数据的治理和控制：对现有的 IT 治理有何影响？

我能否增量地实现大数据解决方案？

人员：是否已有恰当的技能并调整了合适的人员？

是否拥有可用于获取洞察的现有数据？

数据复杂性是否在增长？

数据量是否已增长？

数据种类是否已增多？

数据的速度是否已增长或改变？

您的数据是否值得信赖？

是否所有大数据都存在大数据问题？

第 3 部分: 理解大数据解决方案的架构层

概述

试用 IBM 大数据解决方案

大数据解决方案的逻辑层

图 1. 逻辑和垂直层的组件

大数据来源

数据改动和存储层

分析层

使用层

垂直层

信息集成

大数据治理

服务质量层

系统管理

结束语

第 4 部分: 了解用于大数据解决方案的原子模式和复合模式

简介

试用 IBM 大数据解决方案

图 1. 模式的类别

原子模式

图 2. 用于数据使用、处理、数据访问和存储的原子模式的示例

数据使用模式

可视化模式

即席发现模式

加强传统的数据存储

通知模式

启动一个自动响应模式

处理模式

历史数据分析模式

高级分析模式

预处理原始数据模式

即席分析模式

访问模式

Web 和社交媒体访问模式

图 3. Web 和社交媒体访问

图 4. 大数据访问步骤

非结构化数据存储中的 Web 媒体访问

Web 媒体访问为结构化存储预处理数据

Web 媒体访问预处理非结构化数据

非结构化或结构化数据的 Web 媒体访问

Web 媒体访问预处理非结构化数据

设备生成的数据模式

图 5. 设备生成的数据访问

事务、运营和仓库数据模式

数据访问模式的特殊变化：生物特征数据访问

存储模式

分布式非结构化数据的存储模式

分布式结构化数据的存储模式

传统数据存储的存储模式