摘要:
数据仓库定义:为企业所有的决策制定过程,提供所有系统数据支持的战略集合来源:日志采集系统业务系统数据库爬虫系统等数据仓库是做什么的:清洗,转义,分类,重组,合并,拆分,统计等数据仓库输出到哪:报表系统,用户画像,机器学习,推荐系统,风控系统项目需求分析:1、采集埋点日志数据 以文件存储2、采集业务数 阅读全文
摘要:
spark参数调优摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuf 阅读全文
摘要:
spark优化: 一、代码优化: 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存 缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子(reducebykey,foreachpatition[一般用于和外部数据库进行连接时],coalelce【合并小文件】) 4.避 阅读全文
摘要:
JOIN在Spark Core中的使用1. inner joininner join,只返回左右都匹配上的 // 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文
摘要:
1.避免创建重复的RDD,复用同一个RDD val rdd1 = sc.textFile... val rdd2 = sc.txtFile.. val rdd3 = rdd2.map.. val rdd4 = rdd3.flatMap val rdd5 = rdd1.mapPartitions... 阅读全文
摘要:
1).Receiver模式 a).receiver模式使用zookeeper管理offset,要使用一个task接收kafka中的数据,会有丢失数据的问题,开启WAL机制将数据备份到checkpoint目录中一份,避免数据丢失,开启WAL机制之后会降低任务总体执行效率,延长时间。 b).receiv 阅读全文
摘要:
Kafka 1).kafka是分布式消息系统,生产者消费者模式,数据默认保存7天。 2).概念: producter: 消息的生产者,自己决定往哪个partition中生产数据,i).轮循 ii).hash consumer: 消息消费者,自己在zookeeper中维护消费者偏移量,每个消费者都有自 阅读全文
摘要:
1.SparkStreaming 1).SparkStreaming是流式处理框架,7*24小时不间断运行,微批处理。 2).与Storm的区别: i).Storm是纯实时处理数据,SparkStreaming是微批处理数据 ii).Storm擅长处理汇总型业务,SparkStreaming擅长处理 阅读全文
摘要:
Spark 调优[ 1.资源调优 1).搭建集群 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2).提交任务的时候 提交命令选项:(在提交Application的时候 阅读全文
摘要:
一、你是怎么理解Spark,它的特点是什么? Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。 它内部的组成模块,包含SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等... 阅读全文