随笔分类 -  spark

摘要:1.资源优化 部署spark集群中指定资源分配的默认参数 SPARK_WORKER_CORES 核数 SPARK_WORKER_MEMORY 内存大小 SPARK_WORKER_INSTANCES 每台机器启动worker数 在提交application时给当前的application分配更多的资源 阅读全文
posted @ 2020-01-02 16:20 数据阮小白 阅读(73) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming 一.简介 1.sparkstreaming简介 sparkstreaming是流式处理框架,是sparkAPI的扩展,支持可扩展,高吞吐量.容错的准实时数据流处理 数据来源可以是:kafka,flume,Twitter,ZeroMQ或者TCP sockets,并且可以使 阅读全文
posted @ 2020-01-02 16:19 数据阮小白 阅读(250) 评论(0) 推荐(0) 编辑
摘要:一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile 阅读全文
posted @ 2019-12-30 13:53 数据阮小白 阅读(247) 评论(0) 推荐(0) 编辑
摘要:一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc 阅读全文
posted @ 2019-12-30 13:51 数据阮小白 阅读(150) 评论(0) 推荐(0) 编辑
摘要:一.scala基础 1.数据基础 2.变量和常量的声明 var 定义的是变量可以修改val 定义的是常量不可以修改 package com.shsxt.scala​/** * @author: Savage * @data: 2019/10/21 19:50 */object Text {​ cla 阅读全文
posted @ 2019-12-30 13:48 数据阮小白 阅读(230) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示