莲藕淹

2023年3月6日

摘要： 1. 概述 1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件； Hive除了支持MapRe 阅读全文

posted @ 2023-03-06 10:11 莲藕淹阅读(191) 评论(0) 推荐(0)

2023年1月5日

kafka详解(5)-KAFKA重复消费和消息丢失

摘要： Kafka重复消费重复消费消息重复消费的根本原因都在于：已经消费了数据，但是offset没有成功提交。其中很大一部分原因在于发生了再均衡。 1）消费者宕机、重启等。导致消息已经消费但是没有提交offset。 2）消费者使用自动提交offset，但当还没有提交的时候，有新的消费者加入或者移除，发阅读全文

posted @ 2023-01-05 09:22 莲藕淹阅读(5782) 评论(2) 推荐(2)

HDFS存储格式及压缩算法

摘要：存储格式1 SequenceFile以二进制键值对的形式存储数据,支持三种记录存储方式。.无压缩: io效率较差，相比压缩，不压缩的情况下没有什么优势。记录级压缩:对每条记录都压缩，这种压缩效率比较一般。块级压缩: 这里的块不同于HDFS中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一阅读全文

posted @ 2023-01-05 09:22 莲藕淹阅读(490) 评论(0) 推荐(0)

Spark框架下均值漂移算法对舆情聚类的分析

摘要：知网链接原文链接张京坤，王怡怡软件导刊 2022年21卷第6期页码:141-146 DOI：10.11907/rjdk.211889 中图分类号：TP274 纸质出版日期：2022-06-15，收稿日期：2021-07-05 摘要：为提高对舆情信息的分析能力，设计并实现基于Spark框架阅读全文

posted @ 2023-01-05 09:18 莲藕淹阅读(321) 评论(0) 推荐(0)

2023年1月4日

Spark详解(07-1) - SparkStreaming案例实操

摘要： Spark详解(07-1) - SparkStreaming案例实操环境准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> 阅读全文

posted @ 2023-01-04 13:13 莲藕淹阅读(305) 评论(0) 推荐(0)

2022年4月9日

用通俗的语言讲解复杂度

摘要：复杂度分析复杂度分析复杂度分析是数据结构和算法中最重要的知识点，当然学这篇只是把门找到；反之，学不会它，你就永远找不到窍门。为什么复杂度分析会这么重要？这个要从宇宙大爆炸，呃，从数据结构与算法的本身说起。我平常白天做梦的时候，总想着当当咸鱼，最好能带薪拉屎就能赚大钱那种，数据结构与算法虽然阅读全文

posted @ 2022-04-09 17:40 莲藕淹阅读(195) 评论(0) 推荐(0)

2022年3月27日

linux下redis_单机版_主从_集群_部署文档

摘要：一单机版部署 1.1 Redis下载地址 http://download.redis.io/releases/ 本次部署版本：3.2.8 当前最新版本：5.0.5 1.2 安装部署路径说明规划 /usr/local/redis/data部署组件元数据存储目录，按组件名目录存储(如/部署路径/re 阅读全文

posted @ 2022-03-27 19:03 莲藕淹阅读(224) 评论(0) 推荐(0)

Spark详解(02) - Spark概述

摘要： Spark详解(02) - Spark概述什么是Spark 什么是Spark Hadoop主要解决，海量数据的存储和海量数据的分析计算。 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Hadoop与Spark历史 Hadoop与Spark历史 Hadoop的Yarn框架比Sp 阅读全文

posted @ 2022-03-27 18:16 莲藕淹阅读(418) 评论(0) 推荐(0)

Spark详解(03) - Spark3.0.0运行环境安装

摘要： Spark详解(03) - Spark3.0.0运行环境安装 Spark运行模式 Spark运行模式 Spark常见部署模式： Local模式：在本地部署单个Spark服务所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。在IDEA 阅读全文

posted @ 2022-03-27 18:15 莲藕淹阅读(2254) 评论(0) 推荐(0)

Spark详解(08) - Spark(3.0)内核解析和源码欣赏

摘要： Spark详解(08) - Spark(3.0)内核解析和源码欣赏源码全流程 Spark提交流程（YarnCluster） Spark通讯架构 Spark任务划分 Task任务调度 Shuffle原理 HashShuffle流程优化后的HashShuffle流程假设前提：每个Executor只阅读全文

posted @ 2022-03-27 18:15 莲藕淹阅读(329) 评论(0) 推荐(0)

野芳幽香佳木繁阴风霜高洁水落石出

公告

莲藕淹

野芳幽香 佳木繁阴 风霜高洁 水落石出

公告

野芳幽香佳木繁阴风霜高洁水落石出