12 2024 档案
摘要:1. 简单介绍一下Flink Flink是一个面向流处理和批处理的分布式数据计算引擎,能够基于同一个Flink 运行,可以提供流处理和批处理两种类型的功能。 在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流,这就是所谓的有界流和无界流。 Flink的核心
阅读全文
摘要:Python 作为一种功能强大的编程语言,拥有丰富的第三方库,这些库为开发者提供了极大的便利。以下是一些广泛使用的 Python 库,涵盖了从数据科学、机器学习到网络爬虫等多个领域: 1.数值计算与科学计算 NumPy:用于科学计算的基础包,提供了高性能的多维数组对象和用于数组操作的工具。 SciP
阅读全文
摘要:vmware中的完整克隆是基于指定的虚拟机克隆出相同的一份出来,不必再安装。 但是我们要保证几个地方不能一样,一个是主机名称(hostname),一个是虚拟网卡设备mac地址,还有就是是IP地址和UUID。所以我们在克隆后要对这四个地方进行修改。 这里以centos为例 1.首先进行“完全克隆”,注
阅读全文
摘要:如何清除电脑(主文件夹)中 “最近使用的文件”(痕迹)? (1)按Ctrl + E 键,即可打开 “主文件夹” 的文件夹,这里可以看到 “最近使用的文件” 。 (2)在任务栏这里点击 “三个点” 的图表,然后选择 “选项”。 (3)点击 “隐私” 选项卡下的“清除”按钮,然后点击 “确定”。 然后点
阅读全文
摘要:问题: VMware Workstation 整理磁盘碎片报错: 整理磁盘碎片失败: 指定的虚拟磁盘需要进行修复。 解决办法: (1)找到vmware的安装目录 (可以直接用everything搜索vmware-vdiskmanager查看目录),在目录框下执行cmd命令(C:\Windows\Sy
阅读全文
摘要:优化查询最重要的就是,尽量使语句符合查询优化器的规则避免全表扫描而使用索引查询。 具体要注意的: 1.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描。 如: select id from t where num is null 可以在num上设
阅读全文
摘要:本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个regio
阅读全文
摘要:1. 数据库优化目的 1.1. 避免出现页面访问错误 1). 由于数据库连接timeout产生页面5xx错误; 2). 由于慢查询造成页面无法加载; 3). 由于阻塞造成数据无法提交; 1.2. 增加数据库的稳定性 1). 很多数据库的问题都是由于低效的查询引起的; 1.3. 优化用户体验 1).
阅读全文
摘要:1、分析查询语句 MySQL的EXPLAIN命令主要用于分析SQL查询的执行计划,帮助理解MySQL如何处理SQL语句,并优化查询性能。 (1)EXPLAIN的作用 1)、表的读取顺序:显示MySQL如何读取表和执行JOIN操作。 2)、数据读取操作的操作类型:如全表扫描、索引扫描等。
阅读全文
摘要:第一章 Trino简介 1. Trino概述 Trino是一个分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集。如果使用的是数TB或数PB的数据,那么很可能使用的是与Hadoop和HDFS交互的工具。Trino被设计为使用MapReduce作业管道(如Hive或Pig)查询HD
阅读全文
摘要:第1部分 UNIX 1.1 单项选择(31题) 1、在UNIX中,可用ls命令察看文件属性,一个文件file1的属性为“RW_R_ _ R _ _”,如果对文件赋予本用户读写执行权限,组内用户和其它用户读写权限,则使用()命令。 A、 chmod g+rw , o+r file1 B、 chmod
阅读全文
摘要:一.填空题 1. 在 Linux 系统中,以 文件 方式访问设备 。 2. Linux 内核引导时,从文件 /etc/fstab 中读取要加载的文件系统。 3. Linux 文件系统中每个文件用 信息节点 来标识。 4. 全部磁盘块由四个部分组成,分别为 引导块 、专用块 、 i 节点表块 和数据存
阅读全文
摘要:1. 架构 1.1. 整体架构 StarRocks的架构相对简单。 (1).整个系统只包含两种类型的组件,前端(FE)和后端(BE),StarRocks不依赖任何外部组件,简化了部署和维护。 (2).FE和BE可以在不停机的情况下横向扩展。 (3).StarRocks具有元数据和服务数据的复制机制,
阅读全文
摘要:严格来说,StarRocks并没有所谓的“Standalone运行模式”,生产环境下更是不建议进行单实例部署。这里将单机部署整理出来,主要是考虑当用户测试环境受限于机器数量或仅希望验证功能,那么也可以在一台机器上简易部署把StarRocks跑起来。 一、部署节点 主机IP 主机名 内存 192.16
阅读全文
摘要:现象: 启动FE后,通过命令 ss -nalp | grep 9030 查询不到服务已经启动。 查看fe/log/fe.log日志可以看到报错信息:ERROR (stateChangeExecutor|90) [NodeMgr.checkCurrentNodeExist():680] current
阅读全文
摘要:1.为什么要用Flume? (1).高效的数据收集与聚合:Flume能从多种来源(如Web服务器、消息队列、文件系统等)高效地收集数据,并将其发送到指定的目标位置。它还能将来自不同源的数据进行聚合,便于后续的分析和处理。(2).灵活的数据转换与传输:Flume支持对收集到的数据进行转换
阅读全文
摘要:多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。 当执行过程中任务卡在 99%
阅读全文
摘要:1、StarRocks 的 MV(物化视图)机制是如何工作的? StarRocks 的物化视图(MV)机制通过预先计算和存储数据的聚合结果或者转换结果来提高查询性能。其工作原理如下: (1)、数据预处理: 在创建物化视图时,StarRocks 会对指定的表进行数据聚合或转换操作,然后将结果存储在物化
阅读全文
摘要:执行命令: ifup lo 时,Centos 无法获取IP报错:No suitable device found for this connection device lo not available because device is strictly unmanaged 1. 错误现象No su
阅读全文
摘要:一、调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 二、数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,
阅读全文