2022 年 4月随笔档案 - 软工新人

4-25日报

摘要：Spark Streaming VS Storm image.png 优势从上图中可以看出，Spark Streaming绝对谈不上比Storm优秀，这两个框架在实时计算领域中，都很优秀，只是擅长的细分场景并不相同； Spark Streaming仅仅在吞吐量上比Storm要优秀，但问题是，是不是阅读全文

posted @ 2022-04-25 22:49 软工新人阅读(20) 评论(0) 推荐(0) 编辑

4-24日报

摘要：DStream DStream：Discretized Stream，离散流，Spark Streaming提供的一种高级抽象，代表了一个持续不断的数据流； DStream可以通过输入数据源来创建，比如Kafka、Flume，也可以通过对其他DStream应用高阶函数来创建，比如map、reduce 阅读全文

posted @ 2022-04-24 20:53 软工新人阅读(17) 评论(0) 推荐(0) 编辑

4-23日报

摘要：Spark Streaming工作原理 Spark Streaming内部的基本工作原理：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1s的数据封装为一个batch，然后将每个batch交给Spark的计算引擎进行处理，最后会生产出一个结果数据流，其中的数据，也是一个个的batc 阅读全文

posted @ 2022-04-23 20:53 软工新人阅读(13) 评论(0) 推荐(0) 编辑

4-22日报

摘要：Spark Streaming简介 Spark Streaming：Spark提供的，对于大数据进行实时计算的一种框架；它的底层，也是基于Spark Core的；其基本的计算模型，还是基于内存的大数据实时计算模型RDD，只不过，针对实时计算的特点，在RDD之上，进行了一层封装，叫做DStream（阅读全文

posted @ 2022-04-22 21:09 软工新人阅读(15) 评论(0) 推荐(0) 编辑

4-19日报

摘要：Tachyon Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和 MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的 Jobs/Queries以及框架都能内存的阅读全文

posted @ 2022-04-19 22:06 软工新人阅读(20) 评论(0) 推荐(0) 编辑

4-18日报

摘要：SparkR SparkR是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的job运行在集群上，极大得扩展了R的数据处理能力。 SparkR的几个特性： l 提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行Spark 阅读全文

posted @ 2022-04-18 21:09 软工新人阅读(13) 评论(0) 推荐(0) 编辑

4-17日报

摘要：GraphX GraphX是Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spa 阅读全文

posted @ 2022-04-17 15:36 软工新人阅读(20) 评论(0) 推荐(0) 编辑

4-16日报

摘要：BlinkDB BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎，它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。为了达到这个目标，BlinkDB 使用两个核心思想: l一个自适应优化框架，从原始数据随着时间的推移建立并维护一组多阅读全文

posted @ 2022-04-16 15:08 软工新人阅读(28) 评论(0) 推荐(0) 编辑

4-15日报

摘要：MLBase/MLlib MLBase是Spark生态圈的一部分专注于机器学习，让机器学习的门槛更低，让一些可能并不了解机器学习的用户也能方便地使用MLbase。MLBase分为四部分：MLlib、MLI、ML Optimizer和MLRuntime。 l ML Optimizer会选择它认为最适合阅读全文

posted @ 2022-04-15 20:36 软工新人阅读(19) 评论(0) 推荐(0) 编辑

4-12日报

摘要：今天回顾安卓开发，为了后一两个月时间的软件杯做准备。首先就是先记录下重新使用安卓进行打包时遇到的问题：将apk打包在自己的手机上进行安装时出现类似“解析错误”这样的问题，我在网上搜索相关内容，网上说了在build.grade里面的 defaultConfig有一项“minSdkVersion”需要阅读全文

posted @ 2022-04-12 15:36 软工新人阅读(12) 评论(0) 推荐(0) 编辑

4-11日报

摘要：Spark SQL Shark是SparkSQL的前身，它发布于3年前，那个时候Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业，鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。 Shark即Hive on Spark，本质上是阅读全文

posted @ 2022-04-11 15:08 软工新人阅读(10) 评论(0) 推荐(0) 编辑

4-10日报

摘要：SparkStreaming SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘阅读全文

posted @ 2022-04-10 22:08 软工新人阅读(16) 评论(0) 推荐(0) 编辑

4-9日报

摘要：Spark Core 前面介绍了Spark Core的基本情况，以下总结一下Spark内核架构： l 提供了有向无环图（DAG）的分布式并行计算框架，并提供Cache机制来支持多次迭代计算或者数据共享，大大减少迭代计算之间读取数据局的开销，这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 l 在阅读全文

posted @ 2022-04-09 20:55 软工新人阅读(12) 评论(0) 推荐(0) 编辑

4-8日报

摘要：Spark生态圈也称为BDAS（伯克利数据分析栈），是伯克利APMLab实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案，对海量不透明阅读全文

posted @ 2022-04-08 14:54 软工新人阅读(19) 评论(0) 推荐(0) 编辑

4-5日报

摘要：Spark常用术语术语描述 Application Spark的应用程序，包含一个Driver program和若干Executor SparkContext Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor Driver Program 运行A 阅读全文

posted @ 2022-04-05 21:54 软工新人阅读(11) 评论(0) 推荐(0) 编辑

4-4日报

摘要：Spark运行模式运行环境模式描述 Local 本地模式常用于本地开发测试，本地还分为local单线程和local-cluster多线程; Standalone 集群模式典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持 ZooKeeper来实现HA 阅读全文

posted @ 2022-04-04 14:26 软工新人阅读(20) 评论(0) 推荐(0) 编辑

4-3课堂阅读笔记

摘要：今天阅读了《一线架构师指南》的6-10章，对在阅读过程中的心得进行总结。第六章先是讲述了两个架构师的故事，从案例出发对架构进行掊击和讲解。首先是小张的故事，他新接手了一个项目，需要他对项目进行设计，但是经验不足，于是他在网上搜索相关的信息，主要是认识到了接口的重要性，而且认识到“架构=组件+交互” 阅读全文

posted @ 2022-04-03 19:30 软工新人阅读(31) 评论(0) 推荐(0) 编辑

4-2日报

摘要：Spark成功案例目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等，在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点是计算量大、效率要求高。Spark恰恰满足了这些要求，该项目一经推出阅读全文

posted @ 2022-04-02 14:26 软工新人阅读(20) 评论(0) 推荐(0) 编辑

4-1日报

摘要：Spark的适用场景目前大数据处理场景有以下几个类型： 1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时； 2. 基于历史数据的交互式查询（Interactive Query），通常的时间在数十阅读全文

posted @ 2022-04-01 14:25 软工新人阅读(12) 评论(0) 推荐(0) 编辑

软工新人

04 2022 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜