|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|应用场景|

一、Flink 应用场景

### --- Flink应用场景

~~~     Flink主要应用于流式数据分析场景
~~~     数据无处不在，绝大多数的企业所采取的处理数据的架构都会划分成两类：
~~~     事务型处理、分析型处理

二、事务型处理

### --- 事务性处理

~~~     OLTP On-Line Transaction Processing ：联机事务处理过程。
~~~     流程审批、数据录入、填报等

### --- 事务性特性

~~~     # 特点：
~~~     线下工作线上化，数据保存在各自的系统中，互不相通（数据孤岛）

~~~     # OLTP：

~~~     联机事务处理系统是一种以事务元作为数据处理的单位、人机交互的计算机应用系统。
~~~     它能对数据进行即时更新或其他操作，系统内的数据总是保持在最新状态。
~~~     用户可将一组保持数据一致性的操作序列指定为一个事务元，通过终端、
~~~     个人计算机或其他设备输入事务元，经系统处理后返回结果，
~~~     OLTP主要用来记录某类业务事件的发生，如购买行为，当行为产生后，
~~~     系统会记录是谁在何时何地做了何事，
~~~     这样的一行（或多行）数据会以增删改的方式在数据库中进行数据的更新处理操作，
~~~     要求实时性高、稳定性强、确保数据及时更新成功。
~~~     应用于飞机订票、银行出纳、股票交易、超市销售、
~~~     饭店前后管理等实时系统比如公司常见的业务系统如ERP，CRM，OA等系统都属于OLTP

~~~     # ERP： 
~~~     Enterprise Resource Planning 企业资源计划

~~~     # CRM：
~~~     Customer Relationship Management 客户关系管理

~~~     # OA：
~~~     Office Automation 办公自动化

### --- 事务型数据库系统

~~~     期间没处理一条事件，应用都会通过执行远程数据库系统的事务来读取或更新状态。
~~~     很多时候，多个应用会共享同一个数据库系统，有时候还会访问相同的数据库或表。
~~~     该设计在应用需要更新或数据库扩缩容或更改表模式的时候容易导致问题。

三、分析型处理

### --- 分析型处理

~~~     当数据积累到一定的程度，我们需要对过去发生的事情做一个总结分析时，
~~~     就需要把过去一段时间内产生的数据拿出来进行统计分析，从中获取我们想要的信息，
~~~     为公司做决策提供支持，这时候就是在做OLAP了。
~~~     因为OLTP所产生的业务数据分散在不同的业务系统中，
~~~     而OLAP往往需要将不同的业务数据集中到一起进行统一综合的分析，
~~~     这时候就需要根据业务分析需求做对应的数据清洗后存储在数据仓库中，
~~~     然后由数据仓库来统一提供OLAP分析
~~~     OLAP On-Line Analytical Processing ：联机分析系统分析报表，
~~~     分析决策等
~~~     根据业务分析需求做对应的数据清洗后存储在数据仓库中称为ETL
~~~     ETL：Extract-Transform-Load: 从事务型数据库中提取数据，
~~~     将其转化成通用的表示形式（可能包含数据验证，数据归一化，编码、去重、表模式转化等工作），
~~~     最终加载到分析型数据库中。

### --- OLAP的实现方案一：（数仓）

~~~     如上图所示，数据实时写入 HBase，实时的数据更新也在 HBase 完成，为了应对 OLAP 需求，
~~~     我们定时（通常是 T+1 或者 T+H）将 HBase 数据写成静态的文件（如：Parquet）
~~~     导入到 OLAP 引擎（如：HDFS，比较常见的是Impala操作Hive）。
~~~     这一架构能满足既需要随机读写，又可以支持 OLAP 分析的场景，

### --- 但他有如下缺点：

~~~     # 架构复杂：
~~~     从架构上看，数据在 HBase、消息队列、HDFS 间流转，涉及环节太多，运维成本很高。
~~~     并且每个环节需要保证高可用，都需要维护多个副本，存储空间也有一定的浪费。
~~~     最后数据在多个系统上，对数据安全策略、监控等都提出了挑战。

~~~     # 时效性低：
~~~     数据从 HBase 导出成静态文件是周期性的，一般这个周期是一天（或一小时），
~~~     在时效性上不是很高。

~~~     # 难以应对后续的更新：
~~~     真实场景中，总会有数据是「延迟」到达的。
~~~     如果这些数据之前已经从HBase 导出到 HDFS，新到的变更数据就难以处理了，
~~~     一个方案是把原有数据应用上新的变更后重写一遍，但这代价又很高。

### --- 通常数据仓库中的查询可以分为两类：

~~~     普通查询：是定制的
~~~     即系查询：是用户自定义查询条件的

~~~     # 实时ETL
~~~     集成流计算现有的诸多数据通道和SQL灵活的加工能力，对流式数据进行实时清洗、归并和结构化处理；
~~~     同时，对离线数仓进行有效的补充和优化，并为数据实时传输提供可计算通道。

~~~     # 实时报表
~~~     实时化采集、加工流式数据存储；实时监控和展现业务、客户各类指标，让数据化运营实时化。
~~~     如通过分析订单处理系统中的数据获知销售增长率；
~~~     通过分析分析运输延迟原因或预测销售量调整库存；

~~~     # 监控预警

~~~     对系统和用户行为进行实时监测和分析，以便及时发现危险行为，
~~~     如计算机网络入侵、诈骗预警等在线系统
~~~     实时计算各类数据指标，并利用实时结果及时调整在线系统的相关策略，在各类内容投放、
~~~     智能推送领域有大量的应用，如在客户浏览商品的同时推荐相关商品等

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart

——W.S.Landor