大数据简介

什么是大数据
在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。

梳理海量数据的核心技术:

海量数据的储存(分布式)
海量数据的运算(分布式)
这些核心技术的实现是不需要用户从零开始造轮子的储存和运算的都已经有大量的承受的框架来用。

储存框架:

HDFS–分布式文件储存系统
HBase–分布式数据库系统
Kafka – 分布式消息缓存系统(实时流式数据处理场景中应用广泛)
运算框架:(要解决的核心问题就是帮用户将处理逻辑在许多机器上并行执行)

Hive – 数据仓库工具:可以接收SQL,翻译成mapreduce或者spark程序运行
Flume – 数据采集
Sqoop – 数据迁移
Elisticsearch – 分布式的搜索引擎

换个角度说,大数据是:
有海量的数据
有海量的数据进行挖掘的需求,有对海量数据进行挖掘的工具(Hadoop、spark等)
————————————————
版权声明:本文为CSDN博主「kwin_zhang」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/spring_zhangH/article/details/104551796

posted @ 2021-03-01 11:15  GoodGad  阅读(129)  评论(0编辑  收藏  举报
Live2D