上一页 1 2 3 4 5 6 7 ··· 31 下一页
摘要: Spark SQL Shark是SparkSQL的前身,它发布于3年前,那个时候Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业,鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 Shark即Hive on Spark,本质上是 阅读全文
posted @ 2022-04-11 15:08 软工新人 阅读(10) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘 阅读全文
posted @ 2022-04-10 22:08 软工新人 阅读(15) 评论(0) 推荐(0) 编辑
摘要: Spark Core 前面介绍了Spark Core的基本情况,以下总结一下Spark内核架构: l 提供了有向无环图(DAG)的分布式并行计算框架,并提供Cache机制来支持多次迭代计算或者数据共享,大大减少迭代计算之间读取数据局的开销,这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 l 在 阅读全文
posted @ 2022-04-09 20:55 软工新人 阅读(11) 评论(0) 推荐(0) 编辑
摘要: Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案,对海量不透明 阅读全文
posted @ 2022-04-08 14:54 软工新人 阅读(17) 评论(0) 推荐(0) 编辑
摘要: Spark常用术语 术语 描述 Application Spark的应用程序,包含一个Driver program和若干Executor SparkContext Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor Driver Program 运行A 阅读全文
posted @ 2022-04-05 21:54 软工新人 阅读(9) 评论(0) 推荐(0) 编辑
摘要: Spark运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,本地还分为local单线程和local-cluster多线程; Standalone 集群模式 典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持 ZooKeeper来实现HA 阅读全文
posted @ 2022-04-04 14:26 软工新人 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 今天阅读了《一线架构师指南》的6-10章,对在阅读过程中的心得进行总结。 第六章先是讲述了两个架构师的故事,从案例出发对架构进行掊击和讲解。首先是小张的故事,他新接手了一个项目,需要他对项目进行设计,但是经验不足,于是他在网上搜索相关的信息,主要是认识到了接口的重要性,而且认识到“架构=组件+交互” 阅读全文
posted @ 2022-04-03 19:30 软工新人 阅读(26) 评论(0) 推荐(0) 编辑
摘要: Spark成功案例 目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点是计算量大、效率要求高。Spark恰恰满足了这些要求,该项目一经推出 阅读全文
posted @ 2022-04-02 14:26 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要: Spark的适用场景 目前大数据处理场景有以下几个类型: 1. 复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时; 2. 基于历史数据的交互式查询(Interactive Query),通常的时间在数十 阅读全文
posted @ 2022-04-01 14:25 软工新人 阅读(10) 评论(0) 推荐(0) 编辑
摘要: Spark与Hadoop差异 Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapReduce中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而Spa 阅读全文
posted @ 2022-03-29 18:21 软工新人 阅读(15) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 31 下一页