摘要:
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe 阅读全文
摘要:
Kafka重复消费 重复消费 消息重复消费的根本原因都在于:已经消费了数据,但是offset没有成功提交。 其中很大一部分原因在于发生了再均衡。 1)消费者宕机、重启等。导致消息已经消费但是没有提交offset。 2)消费者使用自动提交offset,但当还没有提交的时候,有新的消费者加入或者移除,发 阅读全文
摘要:
存储格式1 SequenceFile以二进制键值对的形式存储数据,支持三种记录存储方式。.无压缩: io效率较差,相比压缩,不压缩的情况下没有什么优势。记录级压缩:对每条记录都压缩,这种压缩效率比较一 般。块级压缩: 这里的块不同于HDFS中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一 阅读全文
摘要:
知网链接 原文链接 张京坤, 王怡怡 软件导刊 2022年21卷第6期 页码:141-146 DOI:10.11907/rjdk.211889 中图分类号:TP274 纸质出版日期:2022-06-15,收稿日期:2021-07-05 摘要: 为提高对舆情信息的分析能力,设计并实现基于Spark框架 阅读全文
摘要:
Spark详解(07-1) - SparkStreaming案例实操 环境准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> 阅读全文
摘要:
复杂度分析 复杂度分析 复杂度分析是数据结构和算法中最重要的知识点,当然学这篇只是把门找到;反之,学不会它,你就永远找不到窍门。 为什么复杂度分析会这么重要? 这个要从宇宙大爆炸,呃,从数据结构与算法的本身说起。 我平常白天做梦的时候,总想着当当咸鱼,最好能带薪拉屎就能赚大钱那种,数据结构与算法虽然 阅读全文
摘要:
一 单机版部署 1.1 Redis下载地址 http://download.redis.io/releases/ 本次部署版本:3.2.8 当前最新版本:5.0.5 1.2 安装 部署路径说明规划 /usr/local/redis/data部署组件元数据存储目录,按组件名目录存储(如/部署路径/re 阅读全文
摘要:
Spark详解(02) - Spark概述 什么是Spark 什么是Spark Hadoop主要解决,海量数据的存储和海量数据的分析计算。 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Hadoop与Spark历史 Hadoop与Spark历史 Hadoop的Yarn框架比Sp 阅读全文
摘要:
Spark详解(03) - Spark3.0.0运行环境安装 Spark运行模式 Spark运行模式 Spark常见部署模式: Local模式:在本地部署单个Spark服务 所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。 在IDEA 阅读全文
摘要:
Spark详解(08) - Spark(3.0)内核解析和源码欣赏 源码全流程 Spark提交流程(YarnCluster) Spark通讯架构 Spark任务划分 Task任务调度 Shuffle原理 HashShuffle流程 优化后的HashShuffle流程 假设前提:每个Executor只 阅读全文