04 2022 档案

摘要:Spark Streaming VS Storm image.png 优势 从上图中可以看出,Spark Streaming绝对谈不上比Storm优秀,这两个框架在实时计算领域中,都很优秀,只是擅长的细分场景并不相同; Spark Streaming仅仅在吞吐量上比Storm要优秀,但问题是,是不是 阅读全文
posted @ 2022-04-25 22:49 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:DStream DStream:Discretized Stream,离散流,Spark Streaming提供的一种高级抽象,代表了一个持续不断的数据流; DStream可以通过输入数据源来创建,比如Kafka、Flume,也可以通过对其他DStream应用高阶函数来创建,比如map、reduce 阅读全文
posted @ 2022-04-24 20:53 软工新人 阅读(17) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming工作原理 Spark Streaming内部的基本工作原理:接收实时输入数据流,然后将数据拆分成多个batch,比如每收集1s的数据封装为一个batch, 然后将每个batch交给Spark的计算引擎进行处理,最后会生产出一个结果数据流,其中的数据,也是一个个的batc 阅读全文
posted @ 2022-04-23 20:53 软工新人 阅读(13) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming简介 Spark Streaming:Spark提供的,对于大数据进行实时计算的一种框架;它的底层,也是基于Spark Core的; 其基本的计算模型,还是基于内存的大数据实时计算模型RDD,只不过,针对实时计算的特点,在RDD之上,进行了一层封装,叫做DStream( 阅读全文
posted @ 2022-04-22 21:09 软工新人 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Tachyon Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的 阅读全文
posted @ 2022-04-19 22:06 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:SparkR SparkR是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的job运行在集群上,极大得扩展了R的数据处理能力。 SparkR的几个特性: l 提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行Spark 阅读全文
posted @ 2022-04-18 21:09 软工新人 阅读(13) 评论(0) 推荐(0) 编辑
摘要:GraphX GraphX是Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spa 阅读全文
posted @ 2022-04-17 15:36 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:BlinkDB BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎,它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。为了达到这个目标,BlinkDB 使用两个核心思想: l一个自适应优化框架,从原始数据随着时间的推移建立并维护一组多 阅读全文
posted @ 2022-04-16 15:08 软工新人 阅读(28) 评论(0) 推荐(0) 编辑
摘要:MLBase/MLlib MLBase是Spark生态圈的一部分专注于机器学习,让机器学习的门槛更低,让一些可能并不了解机器学习的用户也能方便地使用MLbase。MLBase分为四部分:MLlib、MLI、ML Optimizer和MLRuntime。 l ML Optimizer会选择它认为最适合 阅读全文
posted @ 2022-04-15 20:36 软工新人 阅读(19) 评论(0) 推荐(0) 编辑
摘要:今天回顾安卓开发,为了后一两个月时间的软件杯做准备。 首先就是先记录下重新使用安卓进行打包时遇到的问题:将apk打包在自己的手机上进行安装时出现类似“解析错误”这样的问题,我在网上搜索相关内容,网上说了在build.grade里面的 defaultConfig有一项“minSdkVersion”需要 阅读全文
posted @ 2022-04-12 15:36 软工新人 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Spark SQL Shark是SparkSQL的前身,它发布于3年前,那个时候Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业,鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 Shark即Hive on Spark,本质上是 阅读全文
posted @ 2022-04-11 15:08 软工新人 阅读(10) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘 阅读全文
posted @ 2022-04-10 22:08 软工新人 阅读(16) 评论(0) 推荐(0) 编辑
摘要:Spark Core 前面介绍了Spark Core的基本情况,以下总结一下Spark内核架构: l 提供了有向无环图(DAG)的分布式并行计算框架,并提供Cache机制来支持多次迭代计算或者数据共享,大大减少迭代计算之间读取数据局的开销,这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 l 在 阅读全文
posted @ 2022-04-09 20:55 软工新人 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案,对海量不透明 阅读全文
posted @ 2022-04-08 14:54 软工新人 阅读(19) 评论(0) 推荐(0) 编辑
摘要:Spark常用术语 术语 描述 Application Spark的应用程序,包含一个Driver program和若干Executor SparkContext Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor Driver Program 运行A 阅读全文
posted @ 2022-04-05 21:54 软工新人 阅读(11) 评论(0) 推荐(0) 编辑
摘要:Spark运行模式 运行环境 模式 描述 Local 本地模式 常用于本地开发测试,本地还分为local单线程和local-cluster多线程; Standalone 集群模式 典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持 ZooKeeper来实现HA 阅读全文
posted @ 2022-04-04 14:26 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:今天阅读了《一线架构师指南》的6-10章,对在阅读过程中的心得进行总结。 第六章先是讲述了两个架构师的故事,从案例出发对架构进行掊击和讲解。首先是小张的故事,他新接手了一个项目,需要他对项目进行设计,但是经验不足,于是他在网上搜索相关的信息,主要是认识到了接口的重要性,而且认识到“架构=组件+交互” 阅读全文
posted @ 2022-04-03 19:30 软工新人 阅读(31) 评论(0) 推荐(0) 编辑
摘要:Spark成功案例 目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点是计算量大、效率要求高。Spark恰恰满足了这些要求,该项目一经推出 阅读全文
posted @ 2022-04-02 14:26 软工新人 阅读(20) 评论(0) 推荐(0) 编辑
摘要:Spark的适用场景 目前大数据处理场景有以下几个类型: 1. 复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时; 2. 基于历史数据的交互式查询(Interactive Query),通常的时间在数十 阅读全文
posted @ 2022-04-01 14:25 软工新人 阅读(12) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示