OTPUB知识课堂:为什么你的大数据总是一团乱麻?
虽然我们处于大数据时代,但对于很多朋友来说,提到数据,脑海中的画面依然是这样的:
为什么在大数据这个问题上,很多朋友总是无从下手,一团乱麻呢?那是因为大家对大数据相关概念的认识比较模糊。想要了走进大数据,还是要从其专业术语着手,下面O宝就跟大家一起分享下。
Cassandra
一个很流行的开源数据管理系统,由Apache Software Foundation开发并运营。Apache掌握了很多大数据处理技术,Cassandra就是他们专门设计用于在分布式服务器之间处理大量数据的系统。
数据湖(Data lake)
即一个以大量原始格式保存了公司级别的数据知识库。这里还需要为您介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和其它资源整合后的结构化数据,数据仓库经常被用于通用数据。
分布式文件系统(Distributed File System)
大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。
ETL
ETL代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。
内存计算(In-memory computing)
通常认为,任何不涉及到I/O访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。Apache Spark就是一个内存计算的系统,它相对Mapreduce这类I/O绑定的系统具有很大的优势。
Spark(Apache Spark)
Apache Spark是一个快速的内存数据处理引擎,它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及SQL负载。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
流处理(Stream processing)
流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来,流处理方法特别能够针对大规模数据的实时处理。
结构化vs非结构化数据
结构化与非结构化是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据,以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及人类语音等等。
了解更多大数据知识,请登录OTPUB领先IT学习平台:www.otpub.com