Striver。 - 博客园

2019年3月19日

摘要： Spark Streaming 概述 Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力，以吞吐量高和容错能力强著称。 SparkStreaming VS Storm 在Spark老版本中，SparkStreaming的延迟级别达到秒级，阅读全文

posted @ 2019-03-19 12:53 Striver。阅读(317) 评论(0) 推荐(0)

Spark MLlib

摘要： MLlib 数据挖掘与机器学习数据挖掘体系数据挖掘：也就是data mining，是一个很宽泛的概念，也是一个新兴学科，旨在如何从海量数据中挖掘出有用的信息来。数据挖掘这个工作BI（商业智能）可以做，统计分析可以做，大数据技术可以做，市场运营也可以做，或者用excel分析数据，发现了一些有用的阅读全文

posted @ 2019-03-19 12:52 Striver。阅读(926) 评论(0) 推荐(0)

Spark SQL

摘要： Spark SQL 概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。 SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中，为阅读全文

posted @ 2019-03-19 12:51 Striver。阅读(308) 评论(0) 推荐(0)

Spark Core

摘要： Spark Core DAG概念有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法）和动作（action方法）来生成RDD之间的依赖关系，同时这个计算链也就生成了逻辑上的DAG。 RDD之间的关系可以从两个维度来理解：一个是RDD是从哪些RDD转换而来，也就是RDD的pare 阅读全文

posted @ 2019-03-19 12:50 Striver。阅读(306) 评论(0) 推荐(0)

Spark架构

摘要： Spark架构为了更好地理解调度，我们先来鸟瞰一下集群模式下的Spark程序运行架构图。 1. Driver Program 用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象，程序的执行从Driver程序开始，所有操作阅读全文

posted @ 2019-03-19 12:49 Striver。阅读(242) 评论(0) 推荐(0)

Spark概述

摘要： Spark 概述 Spark的技术背景无论是工业界还是学术界，都已经广泛使用高级集群编程模型来处理日益增长的数据，如MapReduce和Dryad。这些系统将分布式编程简化为自动提供位置感知性调度、容错以及负载均衡，使得大量用户能够在商用集群上分析超大数据集。大多数现有的集群计算系统都是基于非循阅读全文

posted @ 2019-03-19 12:48 Striver。阅读(605) 评论(0) 推荐(0)

Hbase

摘要： Hbase HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库传统关系型数据库的缺陷 1）高并发读写的瓶颈 2）可扩展性的限制 3）事务一致性的负面影响 4）复杂阅读全文

posted @ 2019-03-19 12:44 Striver。阅读(304) 评论(0) 推荐(0)

Strom

摘要： storm 实时分析概念离线分析通常是需要一段时间的数据积累积累到一定数量数据后开始离线分析无论数据量多大离线分析有开始也有结束最终得到一个处理的结果这样的分析过程得到的结果是有较大的延迟的实时分析通常数据不停的到来随着数据的到来来进行增量的运算立即得到新数据的处阅读全文

posted @ 2019-03-19 12:41 Striver。阅读(775) 评论(0) 推荐(0)

Kafka

摘要： Kafka 概述 Kafka是由LinkedIn开发的一个分布式的消息系统，最初是用作LinkedIn的活动流（Activity Stream）和运营数据处理的基础。活动流数据包括页面访问量（Page View）、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的阅读全文

posted @ 2019-03-19 12:39 Striver。阅读(155) 评论(0) 推荐(0)

Flume

摘要： Flume 概述： Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。海量日志采集、聚合和传输的系统，支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flum 阅读全文

posted @ 2019-03-19 12:38 Striver。阅读(270) 评论(0) 推荐(0)

木南。

独学而无友，则孤陋而寡闻。

公告