摘要: F.array() 是 PySpark 中的一个函数,用于将多个列组合成一个数组类型的列。F 通常是 pyspark.sql.functions 模块的简写方式,便于调用。 语法 pyspark.sql.functions.array(*cols) 参数 *cols: 需要组合成数组的多个列。这些列 阅读全文
posted @ 2024-08-20 11:26 白云~ 阅读(17) 评论(0) 推荐(0) 编辑
摘要: F.regexp_replace 是 PySpark 中用于在 DataFrame 的列中执行正则表达式替换操作的函数。它可以用来匹配字符串中的某些模式,并用指定的字符串替换这些模式。 使用场景 清理数据中的特定字符或模式(如去除特殊字符、替换特定的子字符串)。 标准化数据格式(如替换日期格式、移除 阅读全文
posted @ 2024-08-15 10:50 白云~ 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 参考度量值Sales_Per_Month = //计算当年各个月的sales VAR Max_Month = SELECTEDVALUE ( 'Dim_Calendar'[Calendar Month Num] ) RETURN CALCULATE ( [Amt_Vol_Sales_Base], D 阅读全文
posted @ 2024-07-18 11:03 白云~ 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Axis_X_SM_Tgt = VAR Sele_Month = SELECTEDVALUE( 'Axis_X_Dec 3 75'[Sort] ) VAR Sele_Year = MAX( 'Dim_Calendar'[Calendar Year] ) RETURN SWITCH( SELECTED 阅读全文
posted @ 2024-07-04 14:06 白云~ 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 当两个指标均有差异,要结合两个指标的差异进行汇总,并要显示各个层级差异的总计值,用 sumx 函数; 例: Price_Act_vs_Tgt = SUMX('Dim_产品分类', ([Price_Actual] - [Price_Target] ) * [IMS_#]) 阅读全文
posted @ 2024-07-04 10:01 白云~ 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 在 Power BI 中,仪表板(Dashboard)是一个单页的、经常是高度可视化的界面,用于展示来自一个或多个报告的关键信息和指标。仪表板通常用于提供一目了然的数据概览,以便用户快速了解业务状况或其他重要信息。 仪表板的特点: 单页视图:仪表板通常只包含一页,因此必须有效地组织信息,使用户能够快 阅读全文
posted @ 2024-07-04 09:57 白云~ 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 解决方法:将用于排序的度量值,保留一下小数位数; 阅读全文
posted @ 2024-05-31 15:21 白云~ 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1. Select Columns - Example `df = df.select( "customer_id", "customer_name" )` 2. Creating or Replacing a column - Example df = df.withColumn("always_ 阅读全文
posted @ 2024-05-31 13:29 白云~ 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 转载: https://blog.csdn.net/diyangxia/article/details/122208764 阅读全文
posted @ 2023-02-07 14:46 白云~ 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 转载:https://www.cnblogs.com/nanblog/p/16393646.html 阅读全文
posted @ 2023-02-07 14:24 白云~ 阅读(50) 评论(0) 推荐(0) 编辑