随笔分类 -  大数据相关

摘要:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: 1.运行速度快,Spark拥 阅读全文
posted @ 2021-01-20 19:39 大九~ 阅读(1368) 评论(1) 推荐(0) 编辑
摘要:Elasticsearch是一个分布式文档存储。Elasticsearch不会将信息存储为列数据的行,而是存储已序列化为JSON文档的复杂数据结构。当集群中有多个Elasticsearch节点时,存储的文档将分布在集群中,并且可以从任何节点立即访问。 存储文档时,将在1秒钟内几乎实时地对其进行索引和 阅读全文
posted @ 2020-04-09 16:39 大九~ 阅读(18135) 评论(2) 推荐(0) 编辑
摘要:1。hadoop生态系统 2.Hadoop分布式文件系统 2.1 HDFS的设计 2.2 HDFS的概念 数据块 namenode和datanode HDFS的高可用性 2.3命令行接口 2.4hadoop文件系统 2.5通过Flume和sqoop导入数据 阅读全文
posted @ 2020-04-09 15:12 大九~ 阅读(143) 评论(0) 推荐(0) 编辑