大数据学习（一）

一、基本概念

1.大数据应用，一般涵盖数据采集、数据预处理、数据分析、最终为数据消费者提供各类应用（特别是可视化展示和操作）等过程。

2.大数据体系架构

3.数据采集

（1）数据源：日志文件数据；数据库数据；网络数据（特指爬虫抓取数据）；设备数据（通常指设备运行过程自身产生的、发生业务产生的数据。）

（2）采集工具：

a、Filebeat

b、Flume

c、KafkaAppender

d、Canal

e、Scrapy

4.数据传输

数据迁移工具有Sqoop、DataX等；数据传输消息队列有：Kafka、RabbitMQ等

（1）Sqoop是一个分布式的数据迁移工具，主要用于解决关系型数据库与Hadoop平台的数据交互。

（2）DataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库（MySQL、Oracle等）、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。主要利用datax实现同构数据源、异构数据源的抽取、数据转换、数据清洗。

（3）Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，同时也是一个分布式流处理平台。

（4）RabbitMQ

是实现了高级消息队列协议的开源消息代理软件（亦称面向消息的中间件）

5.数据存储

（1）对于海量结构化的数据、文本数据，可以使用分布式文件存储hdfs和hive作为数据仓库

（2）对于海量非结构化数据，可以选择MongoDB、HBase；

（3）对海量文档数据，为快速查询，可以选择分布式文档搜索引擎Elasticsearch；

（4）为快速查询、更新键值数据，可以选择键值存储数据库Redis、Codis等

（5）为实体关系进行存储，可以选择分布式图数据库JanusGraph，ArangoDB

（6）为对海量对象数据进行存储，可以选择Ceph、Minio、FastDFS、SeaweedFS、HBase等；

（7）为对时序数据进行存储，可以选择Prometheus、Influxdb、opentsdb等。

5.2 相关产品和工具

5.2.1 HDFS 分布式文件存储系统

5.2.2 Hive 分布式关系数据仓库

5.2.3 Elasticsearch

5.2.4 Redis 键值存储数据库，主要用于高速缓存，通过key-value的方式实现数据的快速读写。

5.2.5 HBase 分布式列式存储数据库，能够实现在大量的数据中查询记录，也可以从中获得综合分析报告。

5.2.6 MongoDB是一个基于分布式文件存储的数据库，最大的特点是它支持的查询语言非常强大。

5.2.7 JanusGraph是一个图形数据库引擎

6.数据处理

数据处理方法：离线处理、实时处理、交互查询、实时检索等不同的数据处理方法。，通常大数据处理技术或工具主要有海量数据计算分析的Mapreduce、Spark、Greenplum、Hive SQL、Spark SQL、Spark Streaming、Flink

7.数据可视化

数据可视化是大数据技术在各行业应用中的关键技术，在大数据分析结果可视化需求较少时，可以基于开源的可视化组件Echart.js、d3.js来开发数据展示，也可以使用开源的可视化工具Superset、Saiku、metabase、Tableau public;而对于较多可视化展示、可以借助于商务BI软件，比如永洪BI、亿信华辰ABI数据展示工作。

7.2.1 Echarts

8.数据分析工作台

9.数据治理

对Hadoop生态系统数据流通的元数据管理，可以使用Apache Atlas;DataHub是一款源数据搜索与发现的工具。

posted on 2021-12-17 13:57 毛无语666 阅读(215) 评论(0) 收藏举报

刷新页面返回顶部

大数据学习（一）

导航

公告