大数据处理
https://blog.csdn.net/u010862794/article/details/90025104
大数据处理的应用场景
大数据是近些年才出现的吗,人们是近些年才发现大数据的利用价值的吗?其实不然,早在几十年前,数学分析就已经涉猎金融行业了,人们依托于金融和数学知识来建立数学模型,利用金融市场所产的数据来预测金融市场产品收益同风险波动的关系。
到如今,互联网也发展了好些年了,越来越多的数据产生(用户浏览数据、搜索记录、出行记录、消费记录;农作物的成长观察记录;病人的医疗记录等),各行业也开始慢慢的重视起这些数据记录,希望通过对这些数据的分析处理从而得到相应的利益和研究价值。
简单举几个例子,大数据处理可适用在在如下一些场景:
医疗大数据、看病更高效(病例病理分析、基因数据分析)
电商大数据、精准营销法宝(杀熟、哈哈哈哈或)
零售大数据、最懂消费者(用户画像,精准推送)
金融大数据、理财利器 (大数据选股)
交通大数据、畅通出行 (城市大脑)
…
大数据处理架构
各行各业都开始了大数据之路,大量的数据处理,靠人力那是靠不住的,得依靠计算机来。那这自然是少不了程序猿的。那么程序员GG们是如何简洁高效的处理利用这些大数据的呢?
好比普通的web服务应用,有其对于的微服务架构一样,大数据处理也有其对应的处理架构,且这些架构和微服务处理机构类似,都是为了能够满足现实的要求,那么大数据架构有哪些关键特性是需要满足的,主要如下:
容错性和健壮性: 分布式系统所必须的,好比微服务架构,你无法保证肯定不出错但也不能总出错
低延迟:很多应用对于读和写操作的延时要求非常高,要求对更新和查询的响应是低延时的。
横向扩容:数据的增幅增速是惊人的,系统需要能通过横向拓展满足与日俱增的数据增量
可扩展:扩展新功能时付出较少的代价
方便查询:大数据系统本质还是需要输出的,输出的数据需要方便查询
易于维护
针对上述的这些特性要求,大佬们早已设计出了一些架构和处理框架,让我们一起来了解下。
目前主流的大数据处理架构,这里就讲两个: Lambda Architecture 和 Kappa Architecture
需要注意的是,Lambda 和 Kappa两大架构都不是一个具有实体的软件产品,而是一个指导大数据系统搭建的架构模型。因此,用户可以根据自己的需要,在架构模型中任意集成Hadoop,Hbase,Kafka,Storm,Spark、Flink等各类大数据组件。