随笔分类 -  大数据:大数据基础

大数据 相关组件
摘要:组件 | 含义 | 英文 | | Sqoop | 关系型数据的收集 | Flume | 非关系型数据的收集 | YARN | 资源管理系统 | Yet Another Resource Negotiator Mesos(Twitter) | 资源管理系统 | 阅读全文

posted @ 2020-04-28 11:28 cag2050 阅读(549) 评论(0) 推荐(0) 编辑

TiDB 学习资料
摘要:学习资料 网址 官网 https://pingcap.com/docs-cn/stable/ 阅读全文

posted @ 2019-12-09 16:33 cag2050 阅读(680) 评论(0) 推荐(0) 编辑

Yarn、MapReduce、spark、storm的关系
摘要:YARN并不是下一代 MapReduce (MRv2),下一代 MapReduce 与第一代 MapReduce (MRv1)在编程接口、数据处理引擎(MapTask和ReduceTask)是完全一样的, 可认为 MRv2 重用了 MRv1 的这些模块,不同的是资源管理和作业管理系统, MRv1 中 阅读全文

posted @ 2017-12-28 15:32 cag2050 阅读(194) 评论(0) 推荐(0) 编辑

大数据 相关术语
摘要:大数据 相关术语 术语 | 作用 | hadoop | 存储和处理大数据 MapReduce | hadoop自带的数据处理功能 spark | 推荐使用spark做hadoop的数据处理 hdfs | hadoop分布式文件系统 hive | 基于Hadoop的一个数据仓库工具,可以将结构化的数据 阅读全文

posted @ 2017-10-23 09:55 cag2050 阅读(133) 评论(0) 推荐(0) 编辑

Hadoop 和 Spark 的关系
摘要:Hadoop实质上是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。 同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。 Spark 则是一个专门用来对那些分布式存储的大数据进 阅读全文

posted @ 2017-06-01 15:22 cag2050 阅读(526) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示