摘要:
【推荐序】-> 关注清哥聊技术公众号,了解更多技术文章 1999年,Windows 98只有1800万行代码,运行环境只需要16MB内存、225MB硬盘。而目前最新的Windows 10有6000万行代码,需要8GB内存、20GB硬盘才能流畅地运行。1990年,低速的CAN总线才125kb/s,高速 阅读全文
摘要:
一个系统或者软件性能的重要性自然是无需多说,永远没有哪个用户可以忍受打开一个网站或者软件需要很久才能响应,性能是评估一个系统或者软件最实在的指标,如果一个网站做得再好看、再漂亮,但是性能上不去,那也只是华而不实。-> 关注清哥聊技术公众号,了解更多技术文章 笔者在离开测试岗进入研发岗已经有好几个年头 阅读全文
摘要:
序 关于自动化测试的工具和框架其实有很多。自动化测试在测试IT行业中扮演着越来越重要的角色,不管是在传统的IT行业还是高速发展的互联网行业或是如今的大数据和大热的人工智能领域,都离不开测试,也更加离不开自动化测试。自动化测试已经发展了很多年,在很多大的互联网公司里他们不但有自己的自动化测试框架,甚至 阅读全文
摘要:
为了答谢各位读者对清华大学出版社出版的《软件性能测试、分析与调优实践之路(第2版)》的喜爱,定于2024.10.31号 19:30 开始赠送本书,并且包邮。 如何参加活动: 1、首先关注清哥聊技术公众号,并且向公众号发送消息: 软件性能测试、分析与调优实践之路 ,以报名参加活动。 2、管理员在收到消 阅读全文
摘要:
数据资产管理是一项系统而复杂的工程,涉及到元数据、数据血缘、数据质量、数据服务、数据监控、数据安全、数据权限等众多方面,为了更高效的管理好数据资产,因此在很多大型的企业或者组织中,通常会构建一个数据资产管理平台来管理这些各种各样的数据资产,数据资产管理平台通常会包含如下功能: 关注清哥聊技术公众号, 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著,在2024.9.11号晚上20:00,本书作者张永清联合锋哥聊数仓公众号和清华大学出版社一起,向各大大数据技术爱好者通过三轮互动活动赠送了3本正版图书。 《数据资产管理核心技术与应用》深入探讨数据资产管理的核心技术与应用 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 阅读全文
摘要:
质量数据采集到的是原始的数据,由于数据质量规则众多,所以每一种规则采集到的原始数据可能都不一样,所以还需要对原始的数据做归一化处理,然后才能进行入库存储 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。 阅读全文
摘要:
《软件性能测试分析与调优实践之路》(第2版) 是清华大学出版社出版的一本图书,作者为张永清,全书共分为9章,如下图所示 图书介绍:《软件性能测试分析与调优实践之路》(第2版) -> 关注清哥聊技术公众号,了解更多技术文章 本文是接着 《软件性能测试分析与调优实践之路》(第2版) 读书笔记(一)总体介 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 阅读全文
摘要:
《软件性能测试分析与调优实践之路》(第2版) 是清华大学出版社出版的一本图书,作者为张永清,全书共分为9章,如下图所示 图书介绍:《软件性能测试分析与调优实践之路》(第2版) -> 关注清哥聊技术公众号,了解更多技术文章 1、为什么需要性能测试与分析 1)、了解系统的各项性能指标,通过性能压测来了解 阅读全文
摘要:
数据资产管理核心技术与应用 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 阅读全文
摘要:
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 阅读全文
摘要:
本文节选自清华大学出版社出版的图书《数据资产管理核心技术与应用》,作者为张永清等著。-> 关注清哥聊技术公众号,了解更多技术文章 从Spark 执行计划中获取数据血缘 因为数据处理任务会涉及到数据的转换和处理,所以从数据任务中解析血缘也是获取数据血缘的渠道之一,Spark 是大数据中数据处理最常用的 阅读全文
摘要:
《数据资产管理核心技术与应用》是由清华大学出版社出版的一本图书,该图书主要特点如下:-> 关注清哥聊技术公众号,了解更多技术文章 1、依托于大数据技术,独家解密数据血缘的底层技术实现 2、详解数据资产管理的知识体系和核心技术 3、应用元数据管理和数据建模技术,充分发挥出数据资产的更大潜力和价值。 4 阅读全文
摘要:
在做MySQL数据的性能定位前,需要先知道MySQL查询时数据库内部的执行过程。只有弄清SQL的执行过程,才能对执行过程中的每一步的性能做定位分析。如图6-2-1所示。 图6-2-1 从图中可以看到,当查询出数据以后,会将数据先返回给执行器,此时执行器先将结果写到查询缓存里面,这样在下次查询相同的数 阅读全文
摘要:
一、Spring Cloud 支持的常见注册中心和配置中心。 -> 关注清哥聊技术公众号,了解更多技术文章 Spring Cloud 自带的注册中心Eureka以及config配置中心 Nacos,支持注册中心和配置中心等,可以参考:https://www.cnblogs.com/laoqing/p 阅读全文
摘要:
扫描图书前言中的如下图所示的二维码,即可进入到下载页面。 -> 关注清哥聊技术公众号,了解更多技术文章 如下图所示即为课件的下载页面,免费提供下载 阅读全文
摘要:
1. 性能指标曲线频繁出现大幅度抖动 -> 关注清哥聊技术公众号,了解更多技术文章 如图7-5-1所示,TPS和平均响应时间出现频繁的上下抖动。频繁抖动说明系统并不是一直在稳定地运行,中间会有短暂的停顿,就是持续运行了一段时间后,马上会停顿一下,然后又继续运行,持续地这样交替进行,造成了系统的频繁剧 阅读全文
摘要:
一、SpringCloud 简介 -> 关注清哥聊技术公众号,了解更多技术文章 Spring Cloud 是一系列框架的有序集合如服务发现注册、配置中心、消息总线、负载均衡、熔断器、数据监控等。 SpringCloud 将多个服务框架组合起来,通过Spring Boot进行再封装,屏蔽掉了复杂的配置 阅读全文
摘要:
一、Springboot简介 -> 关注清哥聊技术公众号,了解更多技术文章 springboot 是当下最流行的web 框架,Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再 阅读全文
摘要:
1 、MySQL数据库的性能监控 1.1、如何查看MySQL数据库的连接数 -> 关注清哥聊技术公众号,了解更多技术文章 连接数是指用户已经创建多少个连接,也就是MySQL中通过执行 SHOW PROCESSLIST命令输出结果中运行着的线程个数的详情,如图所示。 SHOW PROCESSLIST默 阅读全文
摘要:
1、Prometheus简介 -> 关注清哥聊技术公众号,了解更多技术文章 Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。 Prometh 阅读全文
摘要:
1、Spark Catalyst扩展点 -> 关注清哥聊技术公众号,了解更多技术文章 Spark catalyst的扩展点在SPARK-18127中被引入,Spark用户可以在SQL处理的各个阶段扩展自定义实现,非常强大高效,是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执 阅读全文
摘要:
一、JMeter 如何通过自定义Sample来压测RPC服务 -> 关注清哥聊技术公众号,了解更多技术文章 RPC(Remote Procedure Call)俗称远程过程调用,是常用的一种高效的服务调用方式,也是性能压测时经常遇到的一种服务调用形式。常见的RPC有GRPC、Thrift、Dubbo 阅读全文
摘要:
一、CK 分布式表和本地表 -> 关注清哥聊技术公众号,了解更多技术文章 (1)CK是一个纯列式存储的数据库,一个列就是硬盘上的一个或多个文件(多个分区有多个文件),关于列式存储这里就不展开了,总之列存对于分析来讲好处更大,因为每个列单独存储,所以每一列数据可以压缩,不仅节省了硬盘,还可以降低磁盘I 阅读全文
摘要:
Java编程语言自从诞生起,就成为了一门非常流行的编程语言,覆盖了互联网、安卓应用、后端应用、大数据等很多技术领域,因此Java应用程序的性能分析和调优也是一门非常重要的课题。Java应用程序的性能直接关系到了很多大型电商网站的访问承载能力、大数据的数据处理量等,它的性能分析和调优往往还可以节省很多 阅读全文
摘要:
一、JAVA list 转 DataFrame or DataSet -> 关注清哥聊技术公众号,了解更多技术文章 case class CaseJava( var num: String, var id: String, var start_time: String, var istop_time 阅读全文
摘要:
1、structured-streaming的state 配置项总结 -> 关注清哥聊技术公众号,了解更多技术文章 Config Name Description Default Value spark.sql.streaming.stateStore.rocksdb.compactOnCommit 阅读全文
摘要:
一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且容错的流处理引擎,对比传统的 Spark Streaming 阅读全文
摘要:
一、java获取kafka consumer lag、endOffsets、beginningOffsets -> 关注清哥聊技术公众号,了解更多技术文章 maven依赖: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>ka 阅读全文
摘要:
一、spark structured-streaming 介绍 -> 关注清哥聊技术公众号,了解更多技术文章 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,不再有新的大版本出现,而且 spark streaming 一直是按照微批来处理streaming 数据的, 阅读全文
摘要:
一、当后缀名为zip、gzip,spark可以自动处理和读取 -> 关注清哥聊技术公众号,了解更多技术文章 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或者获取读取后的schema spark.read.text("xxxxxxxx/x 阅读全文
摘要:
窗口函数与分析函数 -> 关注清哥聊技术公众号,了解更多技术文章应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值L 阅读全文
摘要:
一、问题现象,使用flink on yarn 模式,写入数据到clickhouse,但是在yarn 集群充足的情况下一直报:Deployment took more than 60 seconds. Please check if the requested resources are availa 阅读全文
摘要:
1、启动时报错<Error> Application: DB::Exception: There is no profile 'default' in configuration file. -> 关注清哥聊技术公众号,了解更多技术文章 2021.08.07 15:05:30.719723 [ 1 阅读全文
摘要:
1、错误异常信息: -> 关注清哥聊技术公众号,了解更多技术文章 Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@h 阅读全文
摘要:
一、简介 -> 关注清哥聊技术公众号,了解更多技术文章 InfluxDB(时序数据库)influxdb是一个开源分布式时序、时间和指标数据库,使用 Go 语言编写,无需外部依赖。其设计目标是实现分布式和水平伸缩扩展,是 InfluxData 的核心产品。常用的一种使用场景:监控数据统计,物联网传感器 阅读全文
摘要:
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎: MOLAP一般对数据存储有优化,并且进行部分预计算,因此查询性能最高。但通常对查询灵活性有限制。 - 阅读全文