软工新人

2022年4月11日

摘要： Spark SQL Shark是SparkSQL的前身，它发布于3年前，那个时候Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业，鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。 Shark即Hive on Spark，本质上是阅读全文

posted @ 2022-04-11 15:08 软工新人阅读(10) 评论(0) 推荐(0) 编辑

2022年4月10日

4-10日报

摘要： SparkStreaming SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘阅读全文

posted @ 2022-04-10 22:08 软工新人阅读(15) 评论(0) 推荐(0) 编辑

2022年4月9日

4-9日报

摘要： Spark Core 前面介绍了Spark Core的基本情况，以下总结一下Spark内核架构： l 提供了有向无环图（DAG）的分布式并行计算框架，并提供Cache机制来支持多次迭代计算或者数据共享，大大减少迭代计算之间读取数据局的开销，这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 l 在阅读全文

posted @ 2022-04-09 20:55 软工新人阅读(11) 评论(0) 推荐(0) 编辑

2022年4月8日

4-8日报

摘要： Spark生态圈也称为BDAS（伯克利数据分析栈），是伯克利APMLab实验室打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种资源以及各种灵活的技术方案，对海量不透明阅读全文

posted @ 2022-04-08 14:54 软工新人阅读(17) 评论(0) 推荐(0) 编辑

2022年4月5日

4-5日报

摘要： Spark常用术语术语描述 Application Spark的应用程序，包含一个Driver program和若干Executor SparkContext Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor Driver Program 运行A 阅读全文

posted @ 2022-04-05 21:54 软工新人阅读(9) 评论(0) 推荐(0) 编辑

2022年4月4日

4-4日报

摘要： Spark运行模式运行环境模式描述 Local 本地模式常用于本地开发测试，本地还分为local单线程和local-cluster多线程; Standalone 集群模式典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持 ZooKeeper来实现HA 阅读全文

posted @ 2022-04-04 14:26 软工新人阅读(18) 评论(0) 推荐(0) 编辑

2022年4月3日

4-3课堂阅读笔记

摘要：今天阅读了《一线架构师指南》的6-10章，对在阅读过程中的心得进行总结。第六章先是讲述了两个架构师的故事，从案例出发对架构进行掊击和讲解。首先是小张的故事，他新接手了一个项目，需要他对项目进行设计，但是经验不足，于是他在网上搜索相关的信息，主要是认识到了接口的重要性，而且认识到“架构=组件+交互” 阅读全文

posted @ 2022-04-03 19:30 软工新人阅读(26) 评论(0) 推荐(0) 编辑

2022年4月2日

4-2日报

摘要： Spark成功案例目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等，在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点是计算量大、效率要求高。Spark恰恰满足了这些要求，该项目一经推出阅读全文

posted @ 2022-04-02 14:26 软工新人阅读(20) 评论(0) 推荐(0) 编辑

2022年4月1日

4-1日报

摘要： Spark的适用场景目前大数据处理场景有以下几个类型： 1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时； 2. 基于历史数据的交互式查询（Interactive Query），通常的时间在数十阅读全文

posted @ 2022-04-01 14:25 软工新人阅读(10) 评论(0) 推荐(0) 编辑

2022年3月29日

3-29日报

摘要： Spark与Hadoop差异 Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷，具体如下：首先，Spark把中间数据放到内存中，迭代运算效率高。MapReduce中计算结果需要落地，保存到磁盘上，这样势必会影响整体速度，而Spa 阅读全文

posted @ 2022-03-29 18:21 软工新人阅读(15) 评论(0) 推荐(0) 编辑

公告