11 2017 档案

摘要:在idea中新建了一Spark的项目,在做项目的编译打包的时候,提示如下错误信息: 解决方法是: 第一步: File --> Project Stucture 选择项目设置Lanugage level, 如下图所示 第二步: File --> Settings --> Compiler --> Ja 阅读全文
posted @ 2017-11-28 13:36 大葱拌豆腐 阅读(434) 评论(0) 推荐(0) 编辑
摘要:一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件 由上图可知,Spark-c 阅读全文
posted @ 2017-11-16 10:25 大葱拌豆腐 阅读(1123) 评论(0) 推荐(0) 编辑
摘要:转载自:https://mp.weixin.qq.com/s/EQgDUSf3TK0oVg1xmg-49Q Checkpoint是Spark Streaming中的核心机制,它为应用程序的7*24小时LongRunning提供保证。Spark Checkpoint是基于JVM Serializabl 阅读全文
posted @ 2017-11-07 11:01 大葱拌豆腐 阅读(745) 评论(0) 推荐(0) 编辑
摘要:前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。 本文首先对spark streaming嵌入kafka的方式进 阅读全文
posted @ 2017-11-07 10:09 大葱拌豆腐 阅读(575) 评论(0) 推荐(0) 编辑
摘要:转载自:http://www.cnblogs.com/barrenlake/p/5349949.html# 1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现 batch processing tim 阅读全文
posted @ 2017-11-07 09:43 大葱拌豆腐 阅读(389) 评论(0) 推荐(0) 编辑
摘要:楼主是从Hadoop2.x版本过来的,在工作之余自己搭建了一套3.0的版本来耍一耍,此文章的前置环境准备工作省略。主要介绍一些和Hadoop2.x版本不同的安装之处 Hadoop版本:hadoop-3.0.0-beta1 JDK版本:jdk1.8.0_121 虚拟机版本:Centos6.5 一、前置 阅读全文
posted @ 2017-11-06 10:31 大葱拌豆腐 阅读(419) 评论(0) 推荐(0) 编辑
摘要:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 阅读全文
posted @ 2017-11-05 13:22 大葱拌豆腐 阅读(481) 评论(0) 推荐(0) 编辑
摘要:转载自:https://zhuanlan.zhihu.com/p/25772054 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式 阅读全文
posted @ 2017-11-05 12:04 大葱拌豆腐 阅读(579) 评论(0) 推荐(0) 编辑
摘要:上篇文章谈到Driver节点和Executor节点,但是如果想要运行Driver节点和Executor节点,就不能不说spark的集群管理器。spark的集群管理器大致有三种,一种是自带的standalone独立集群管理器,一种是依赖于Hadoop的资源调度器YARN,还有一种就是Apache项目的 阅读全文
posted @ 2017-11-04 11:22 大葱拌豆腐 阅读(443) 评论(0) 推荐(0) 编辑
摘要:转载自:http://blog.sina.com.cn/s/blog_15fc03d810102wto0.html 1.驱动器节点(Driver) Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操 阅读全文
posted @ 2017-11-04 11:21 大葱拌豆腐 阅读(5053) 评论(0) 推荐(1) 编辑
摘要:1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets, 阅读全文
posted @ 2017-11-03 10:51 大葱拌豆腐 阅读(1256) 评论(0) 推荐(0) 编辑
摘要:1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗资源) Storm 纯 阅读全文
posted @ 2017-11-02 10:41 大葱拌豆腐 阅读(1032) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示