摘要:
简介 在数据库中,我们除了存储数据外,还存储了大量的元数据。它们主要的作用就是描述数据库怎么建立、配置、以及各种对象的属性等。本篇简单介绍如何使用和查询元数据,如何更有效的管理SQLServer 数据库。 对一些有经验的数据库开发和管理人员而言,元数据是非常有价值的。下面我会介绍一下简单的原理,然后 阅读全文
摘要:
背景 假如我们有关键数据存储在一个表里面,比如人员表中包含员工、部门和薪水信息。只允许用户访问各自部门的信息,但是不能访问其他部门。一般我们都是在程序端实现这个功能,而在sqlserver2016以后也可以直接在数据库端实现这个功能。 解决 安全已经是一个数据方面的核心问题,每一代的MS数据库都有关 阅读全文
摘要:
背景: 图数据库对于表现和遍历复杂的实体之间关系是很有效果的。而这些在传统的关系型数据库中尤其是对于报表而言很难实现。如果把传统关系型数据库比做火车的话,那么到现在大数据时代,图数据库可比做高铁。它已成为NoSQL中关注度最高,发展趋势最明显的数据库。伴随SQL Server 2017的出现,在SQ 阅读全文
摘要:
背景 最近一个客户找到我说是所有的SQL Server 服务器的内存都被用光了,然后截图给我看了一台服务器的任务管理器。如图 这里要说明一下任务管理器不会完整的告诉真的内存或者CPU的使用情况,也就是说这里只能得到非精确的信息,有可能就是一个假警报。 为了让我的客户放心,我检查了服务器并且查看了很多 阅读全文
摘要:
背景 最近越来越多的公司把业务搬迁到云上,公司也有这个计划,自己抽时间在阿里云和Azure上做了一些小的尝试,现在把阿里云上部署ES和kibana记录下来。为以后做一个参考,也希望对其他人有帮助。 这里以阿里云为例,由于测试只有一台机器所以这里就展开到集群了,下面介绍下详细的步骤。 步骤: 1.申请 阅读全文
摘要:
问题 对于DBA或者其他运维人员来说授权一个账户的相同权限给另一个账户是一个很普通的任务。但是随着服务器、数据库、应用、使用人员地增加就变得很枯燥乏味又耗时费力的工作。那么有什么容易的办法来实现这个任务吗? 当然,作为非DBA在测试甚至开发环境也会遇到这种问题,要求授予所有服务器数据库的某个权限给一 阅读全文
摘要:
背景 现在越来越多的企业、公司要求对于数据库实现7*24小时的数据库监控,一般情况下采用的就是第三方的平台来实现邮件和手机短信的监测提醒。前几日公司新上了一台服务器,急于部署程序还没来得及搭建其他相关平台,为了更好的监控数据库,暂时用SQL Server自带的邮件服务来实现对数据库的监控和预警。下面 阅读全文
摘要:
概念 Powershell 是运行在windows机器上实现系统和应用程序管理自动化的命令行脚本环境。你可以把它看成是命令行提示符cmd.exe的扩充,不对,应当是颠覆。 powershell需要.NET环境的支持,同时支持.NET对象。微软之所以将Powershell 定位为Power,并不是夸大 阅读全文
摘要:
背景 Microsoft SQL Server 对于数据平台的开发者来说越来越友好。比如已经原生支持XML很多年了,在这个趋势下,如今也能在SQLServer2016中使用内置的JSON。尤其对于一些大数据很数据接口的解析环节来说这显得非常有价值。与我们现在所做比如在SQL中使用CLR或者自定义的函 阅读全文
摘要:
许多有经验的数据库开发或者DBA都曾经头痛于并行查询计划,尤其在较老版本的数据库中(如sqlserver2000、oracle 7、mysql等)。但是随着硬件的提升,尤其是多核处理器的提升,并行处理成为了一个提高大数据处理的高效方案尤其针对OLAP的数据处理起到了很好的作用。 充分高效地利用并行查 阅读全文
摘要:
简介 最近测试服务器进行数据归档,其间程序员发现一个问题,空间不足,我查看原因发现日志文件暴涨。然后将数据库改为简单恢复模式,但是依然存在这个问题。经过查询资料发现了日志文件在简单模式下依然增加的原因。 Simple概念 Simple恢复模式也叫做”Checkpoint with truncate 阅读全文
摘要:
这几天要求做一个服务器的统计信息,主要针对表和索引。下面我就简单分享几个查询数据表和索引统计信息的方法: 1.使用T-SQL 语句实现: 执行结果如图 这种方法的优点如下: 运行速度快。 由于不访问用户表,不会影响性能,不加锁。 灵活组合,也可以与其他语句联合查询金结果。 2. 使用系统存储过程sp 阅读全文
摘要:
今天我将介绍在SQLServer 中的三种连接操作符类型,分别是:循环嵌套、哈希匹配和合并连接。主要对这三种连接的不同、复杂度用范例的形式一一介绍。 本文中使用了示例数据库AdventureWorks ,下面是下载地址:http://msftdbprodsamples.codeplex.com/re 阅读全文
摘要:
简介 之前一篇简单的介绍了语法和一些基本的概念,隔了一段时间,觉得有必要细致的通过实例来总结一下这部分内容。如之前所说,分区就是讲大型的对象(表)分成更小的块来管理,基本单位是行。这也就产生了很大优势, 比如在数据库维护备份还原操作的时候,比如在大量用户访问能导致死锁的时候等等。接下来我们通过大量实... 阅读全文
摘要:
隐式转换(Implicit conversion) ,这个情况每个程序员都或多或少的遇到过,这里我结合实际情况简单描述下常见的问题以及如何解决并阐述下原理。所谓隐式转换主要出现在我们T-SQL语句中的where 条件里面,我们先从原因上去看一下为什么会出现隐式转换。出现隐式转换的情况和结果:当SQL... 阅读全文
摘要:
简介 SQL Server每个表中各列的数据类型的有各种形式,产生的效果也各有不同,我们主要根据效率兼顾性能的情况下讨论下如何规定类型。 在SQL Server中,数据的存储以页为单位。八个页为一个区。一页为8K,一个区为64K,这个意味着1M的空间可以容纳16个区。 SQL Server中的分配... 阅读全文
摘要:
本篇文章介绍的是一个完整AB测试流程应该怎么走。 AB测试流程有以下几个步骤: 一、选取实验指标 二、建立实验假设 三、选取实验单位 四、确定最小提升预期值 五、计算最小样本量 六、流量分割 七、确定实验时长 八、数据统计 九、得出结论 接下来就详细说明每个步骤。 一、选取实验指标 一个实验只能有一 阅读全文
摘要:
数据分析笔试中累加问题是非常常见的考题,今天我们用一个函数来搞定它 sum over(partition by 分组列 order by 排序列 rows between 开始位置 preceding and 结束位置 following) 其中'开始位置'和'结束位置'可配置参数:数据、curre 阅读全文
摘要:
假设我有一个看起来像这样的蜂巢表: ID event order_num A red 2 A blue 1 A yellow 3 B yellow 2 B green 1 ... 我正在尝试使用 collect_list 为每个 ID 生成事件列表。所以类似于以下内容: SELECT ID, col 阅读全文
摘要:
建表语句,如下: DROP TABLE IF EXISTS dim_date_info; CREATE EXTERNAL TABLE dim_date_info( `date_id` STRING COMMENT '日', `week_id` STRING COMMENT '周ID', `week_ 阅读全文
摘要:
常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spar 阅读全文
摘要:
背景我们知道clickhouse一般都是处理单表的数据,经常需要实现同环比等分析场景,这里提供两种方式:首先计算公式: 同比、环比分析是一对常见的分析指标,其增长率公式如下: 同比增长率 =(本期数 - 同期数) / 同期数 环比增长率 =(本期数 - 上期数) /上期数 1. 向大家介绍如何利用 阅读全文
摘要:
olap Druid :是一个实时处理时序数据的OLAP数据库,因为它的索引按照时间分片,查询的时候也是按照时间线去路由索引。 Kylin核心是Cube,Cube是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。 Presto:它没有使用MapReduce, 阅读全文
摘要:
安装 Superset 和ClickHouse Superset 安装可以参考我之前的随笔 ClickHouse 安装 ClickHouse 的驱动包 pip install clickhouse-sqlalchemy 配置 ClickHouse 连接 选择 ClickHouse 这里我拿网上的大数 阅读全文
摘要:
解决的问题 在WIN10环境下,安装并正常运行Superset 建议使用Python虚拟环境,减少库依赖冲突 不需要安装VC啦! 注意 本教程安装的版本是1.5 Superset在2022年7月发布了2.0的大版本更新 如python的版本要求变为3.9+,同时增加了更多的库依赖等 以下教程未为对2 阅读全文
摘要:
最近工作使用了一段时间的的数据库客户端 DBeaver,发现客户端显示时间不正确。时间保存之后发现日期经常自动-1。 这期间做了大量测试和分析,一开始以为时csv格式问题,反复导入最终查到是因为时区问题导致的日期-1,解决方式如下。 解决方法1: 或者在链接字符串后面增加这个参数亦可。 解决方法2: 阅读全文