2017 年 11月随笔档案 - 大葱拌豆腐

IDEA中打包Spark项目提示Error:(16, 48) java: -source 1.5 中不支持 lambda 表达式

摘要：在idea中新建了一Spark的项目，在做项目的编译打包的时候，提示如下错误信息：解决方法是：第一步： File --> Project Stucture 选择项目设置Lanugage level，如下图所示第二步： File --> Settings --> Compiler --> Ja 阅读全文

posted @ 2017-11-28 13:36 大葱拌豆腐阅读(434) 评论(0) 推荐(0) 编辑

Spark应用日志级别设置

摘要：一. 日志效率原因开发时，控制台输出一大堆日志信息，严重影响查看日志效率。从控制台输出日志我们可以看出，应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件由上图可知，Spark-c 阅读全文

posted @ 2017-11-16 10:25 大葱拌豆腐阅读(1123) 评论(0) 推荐(0) 编辑

Spark Streaming Checkpoint反序列化问题分析

摘要：转载自：https://mp.weixin.qq.com/s/EQgDUSf3TK0oVg1xmg-49Q Checkpoint是Spark Streaming中的核心机制，它为应用程序的7*24小时LongRunning提供保证。Spark Checkpoint是基于JVM Serializabl 阅读全文

posted @ 2017-11-07 11:01 大葱拌豆腐阅读(745) 评论(0) 推荐(0) 编辑

Spark踩坑记：Spark Streaming+kafka应用及调优

摘要：前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进阅读全文

posted @ 2017-11-07 10:09 大葱拌豆腐阅读(575) 评论(0) 推荐(0) 编辑

Spark Streaming Backpressure分析

摘要：转载自：http://www.cnblogs.com/barrenlake/p/5349949.html# 1、为什么引入Backpressure 默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现 batch processing tim 阅读全文

posted @ 2017-11-07 09:43 大葱拌豆腐阅读(389) 评论(0) 推荐(0) 编辑

hadoop-3.0.0-beta1分布式安装

摘要：楼主是从Hadoop2.x版本过来的，在工作之余自己搭建了一套3.0的版本来耍一耍，此文章的前置环境准备工作省略。主要介绍一些和Hadoop2.x版本不同的安装之处 Hadoop版本：hadoop-3.0.0-beta1 JDK版本：jdk1.8.0_121 虚拟机版本：Centos6.5 一、前置阅读全文

posted @ 2017-11-06 10:31 大葱拌豆腐阅读(419) 评论(0) 推荐(0) 编辑

Spark基本架构及原理

摘要：Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统阅读全文

posted @ 2017-11-05 13:22 大葱拌豆腐阅读(481) 评论(0) 推荐(0) 编辑

深度剖析Spark分布式执行原理

摘要：转载自：https://zhuanlan.zhihu.com/p/25772054 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于Spark源码分析的文章有很多，但是介绍Spark如何处理代码分布式阅读全文

posted @ 2017-11-05 12:04 大葱拌豆腐阅读(579) 评论(0) 推荐(0) 编辑

Spark的集群管理器

摘要：上篇文章谈到Driver节点和Executor节点，但是如果想要运行Driver节点和Executor节点，就不能不说spark的集群管理器。spark的集群管理器大致有三种，一种是自带的standalone独立集群管理器，一种是依赖于Hadoop的资源调度器YARN，还有一种就是Apache项目的阅读全文

posted @ 2017-11-04 11:22 大葱拌豆腐阅读(443) 评论(0) 推荐(0) 编辑

Spark的Driver节点和Executor节点

摘要：转载自：http://blog.sina.com.cn/s/blog_15fc03d810102wto0.html 1．驱动器节点(Driver) Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD，以及进行 RDD 的转化操阅读全文

posted @ 2017-11-04 11:21 大葱拌豆腐阅读(5053) 评论(0) 推荐(1) 编辑

实时流计算Spark Streaming原理介绍

摘要：1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，阅读全文

posted @ 2017-11-03 10:51 大葱拌豆腐阅读(1256) 评论(0) 推荐(0) 编辑

Spark Streaming实战

摘要：1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理，来一条数据就立即进行处理 SparkStreaming 微批处理，每次处理的都是一批非常小的数据 Storm支持动态调整并行度（动态的资源分配），SparkStreaming(粗粒度，比较消耗资源) Storm 纯阅读全文

posted @ 2017-11-02 10:41 大葱拌豆腐阅读(1032) 评论(0) 推荐(0) 编辑

11 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论