摘要:
Databricks 集成了命令行,比如 %run,允许用户在一个Notebook中去执行指定的notebook,当运行 %run时,被调用的notebook会立即执行。 %run <notebook_path_name> %run命令相当于Python语言中的import语句,在被调用notebo 阅读全文
摘要:
向量化表示对数组进行向量化操作,apply表示在某一个维度上应用函数,而栅格用于生产网格化数据。 一,vectorize 向量化 numpy.vectorize()函数定义一个向量化函数,它以序列或numpy数组作为输入,对numpy数组做向量化操作。函数输出的数据类型是由otypes参数确定的,如 阅读全文
摘要:
在PowerBI 报表中,常规的Tooltip是一段文本,当光标悬停在Visual上,Visual上方会自动显示Tooltip的文本。PowerBI 支持用户自定义内容丰富的Tooltip,用户通过创建一个Report Page,在Page上插入文本、图片和图表等,并把该Page设置为Tooltip 阅读全文
摘要:
PowerBI可以通过RLS(Row-level security)限制用户对数据的访问,过滤器在行级别限制数据的访问,用户可以在角色中定义过滤器,通过角色来限制数据的访问。在PowerBI Service中,workspace中的member能够访问Workspace中的Dataset,RLS不会 阅读全文
摘要:
使用PowerBI Desktop中的bookmark(书签),开发人员可以捕获报表中一个页面的当前配置,包括过滤器的设置,Visual的状态等信息,此后,开发人员可以通过激活已保存的bookmark,使报表中的一个Page还原到创建该bookmark时的状态。 对于报表的受众来说,bookmark 阅读全文
摘要:
SQL Server 审计系列: SQL Server 审计 第一篇:介绍(Audit) SQL Server 审计 第二篇: 创建审计 SQL Server 审计 第三篇:查看审计数据 审计(Audit)用于追踪和记录SQL Server实例,或者单个数据库中发生的事件(Event),审计运作的机 阅读全文
摘要:
计算机有多种节能(energy-saving)选择,而最著名的节省选择是休眠模式(Hibernate mode,也被称作为挂起硬盘模式)。在Hibernate模式下,在操作系统关闭之前,系统把当前用户的会话存储到硬盘上,以便计算机从休眠状态唤醒时,能够从上次中断的位置处继续工作。Micorsoft操 阅读全文
摘要:
本文分享在Azure Databricks中如何实现行转列和列转行,并介绍对查询的结果进行排序的各种方式。 一,行转列 在分组中,把每个分组中的某一列的数据连接在一起: collect_list:把一个分组中的列合成为数组,数据不去重,格式是['a','a','b'] collect_set:把一个 阅读全文
摘要:
大家知道,用户可以在Notebook UI中以交互方式运行Notebook中的SQL、Python等代码,交互方式便于数据的调查和分析。用户还可以通过Job来自动维护数据,Job是立即运行或按计划运行notebook(或JAR)的一种方法,通过Job可以定时执行数据的清理和整合,用户只需要设置好计划 阅读全文
摘要:
Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。Spark SQL 有常规标识符和分割标识符(delimited identifiers),分割标识符 阅读全文
摘要:
DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mount是Data Lake Storage Gen2的指针,因此数据不会同步到本地,但是用户可以访问远 阅读全文
摘要:
Azure中的Secret是指密码、凭证和密钥等,举个例子,使用Azure Databricks Secret来存储凭证,并在notebook和job中引用它们,而不是直接在notebook中输入凭据。 Secret Scope是Secret的集合,每一个Secret是由name唯一确定的。每一个D 阅读全文
摘要:
为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur 阅读全文
摘要:
Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul 阅读全文
摘要:
Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT 阅读全文
摘要:
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从 阅读全文
摘要:
Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D 阅读全文
摘要:
对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计 阅读全文
摘要:
Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个 阅读全文
摘要:
pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram 阅读全文