随笔分类 - spark

大神优化spark

摘要：1.资源优化部署spark集群中指定资源分配的默认参数 SPARK_WORKER_CORES 核数 SPARK_WORKER_MEMORY 内存大小 SPARK_WORKER_INSTANCES 每台机器启动worker数在提交application时给当前的application分配更多的资源阅读全文

posted @ 2020-01-02 16:20 数据阮小白阅读(73) 评论(0) 推荐(0) 编辑

我所看到的sparkstreaming

摘要：SparkStreaming 一.简介 1.sparkstreaming简介 sparkstreaming是流式处理框架,是sparkAPI的扩展,支持可扩展,高吞吐量.容错的准实时数据流处理数据来源可以是:kafka,flume,Twitter,ZeroMQ或者TCP sockets,并且可以使阅读全文

posted @ 2020-01-02 16:19 数据阮小白阅读(250) 评论(0) 推荐(0) 编辑

再识spark

摘要：一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile 阅读全文

posted @ 2019-12-30 13:53 数据阮小白阅读(247) 评论(0) 推荐(0) 编辑

spark初识

摘要：一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduc 阅读全文

posted @ 2019-12-30 13:51 数据阮小白阅读(150) 评论(0) 推荐(0) 编辑

scala

摘要：一.scala基础 1.数据基础 2.变量和常量的声明 var 定义的是变量可以修改val 定义的是常量不可以修改 package com.shsxt.scala/** * @author: Savage * @data: 2019/10/21 19:50 */object Text { cla 阅读全文

posted @ 2019-12-30 13:48 数据阮小白阅读(230) 评论(0) 推荐(0) 编辑

公告

昵称：数据阮小白
园龄： 5年4个月
粉丝： 2
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

数据阮小白

#数据阮小白的进阶之路

随笔分类 - spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜