小阿政

2021年8月21日

摘要：数据仓库定义：为企业所有的决策制定过程，提供所有系统数据支持的战略集合来源：日志采集系统业务系统数据库爬虫系统等数据仓库是做什么的：清洗，转义，分类，重组，合并，拆分，统计等数据仓库输出到哪：报表系统，用户画像，机器学习，推荐系统，风控系统项目需求分析：1、采集埋点日志数据以文件存储2、采集业务数阅读全文

posted @ 2021-08-21 13:38 小阿政阅读(111) 评论(0) 推荐(0) 编辑

2021年8月2日

spark参数调优

摘要： spark参数调优摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuf 阅读全文

posted @ 2021-08-02 19:01 小阿政阅读(225) 评论(0) 推荐(0) 编辑

2021年7月28日

spark优化总结

摘要： spark优化：一、代码优化： 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子（reducebykey，foreachpatition[一般用于和外部数据库进行连接时]，coalelce【合并小文件】） 4.避阅读全文

posted @ 2021-07-28 23:20 小阿政阅读(159) 评论(0) 推荐(0) 编辑

spark的rdd的join

摘要： JOIN在Spark Core中的使用1. inner joininner join，只返回左右都匹配上的 // 启动spark-shell，定义两个rdd，做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文

posted @ 2021-07-28 21:38 小阿政阅读(498) 评论(0) 推荐(0) 编辑

spark代码优化

摘要： 1.避免创建重复的RDD，复用同一个RDD val rdd1 = sc.textFile... val rdd2 = sc.txtFile.. val rdd3 = rdd2.map.. val rdd4 = rdd3.flatMap val rdd5 = rdd1.mapPartitions... 阅读全文

posted @ 2021-07-28 20:45 小阿政阅读(81) 评论(0) 推荐(0) 编辑

2021年7月24日

kafka整合sparkstreaming

摘要： 1).Receiver模式 a).receiver模式使用zookeeper管理offset，要使用一个task接收kafka中的数据，会有丢失数据的问题，开启WAL机制将数据备份到checkpoint目录中一份，避免数据丢失，开启WAL机制之后会降低任务总体执行效率，延长时间。 b).receiv 阅读全文

posted @ 2021-07-24 20:06 小阿政阅读(169) 评论(1) 推荐(0) 编辑

kafka基本知识

摘要： Kafka 1).kafka是分布式消息系统，生产者消费者模式，数据默认保存7天。 2).概念： producter: 消息的生产者，自己决定往哪个partition中生产数据，i).轮循 ii).hash consumer：消息消费者，自己在zookeeper中维护消费者偏移量,每个消费者都有自阅读全文

posted @ 2021-07-24 20:00 小阿政阅读(260) 评论(0) 推荐(0) 编辑

spark streaming

摘要： 1.SparkStreaming 1).SparkStreaming是流式处理框架，7*24小时不间断运行，微批处理。 2).与Storm的区别： i).Storm是纯实时处理数据，SparkStreaming是微批处理数据 ii).Storm擅长处理汇总型业务，SparkStreaming擅长处理阅读全文

posted @ 2021-07-24 19:58 小阿政阅读(190) 评论(0) 推荐(0) 编辑

spark调优

摘要： Spark 调优[ 1.资源调优 1).搭建集群在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2).提交任务的时候提交命令选项：（在提交Application的时候阅读全文

posted @ 2021-07-24 19:56 小阿政阅读(74) 评论(0) 推荐(0) 编辑

spark面试题

摘要：一、你是怎么理解Spark，它的特点是什么？ Spark是一个基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎。它内部的组成模块，包含SparkCore，SparkSQL，SparkStreaming，SparkMLlib，SparkGraghx等... 阅读全文

posted @ 2021-07-24 19:36 小阿政阅读(379) 评论(0) 推荐(0) 编辑

公告