摘要:
1 泛化误差 学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质重要的性质。 泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习 阅读全文
摘要:
正则化与交叉验证用于模型选择 1 正则化 正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty iterm )。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。 正则化一般形式: 正 阅读全文
摘要:
1 训练误差 2 测试误差 测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力 3 过拟合 过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。 4 模型选择 如果在假设空间中存在“真”模型, 阅读全文
摘要:
https://datawhalechina.github.io/pms50/#/chapter2/chapter2 关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系。 也就是说,一个变量如何相对于另一个变化。 带边界的气泡图 有时,您希望在边界内显示一组点以强调其重要性 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/88528732 在各种经营分析报告中,我们常常会看到YTD,YOY这样的统计指标,这样的数据计算并不难,尤其是在PowerBI中,因为有时间智能函数的帮助,大大简化了这些计算,从而快速满足定期的报告需求。 下面就给你列出这些常用统计数据的度 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/96823622 开始半累加的计算之前,我们先看看什么是累加、半累加以及不可累加数据。 在含有大量行的数据表中,各种数据处理语言,包括DAX,为了性能考虑,不太可能总是检索表的每一行,更常见的情形是,一次性检索成千上万行,处理如此多行数据的 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/85996745 上一篇文讲了累计聚合,这篇文章继续讲一下滚动聚合,比如常用的MAT计算,Moving Annual Total,滚动年度总计,即向前滚动12月的合计数。 滚动年度求和,也经常用于财务上的滚动预算,看完这篇文章,你以后会很轻松 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/64999937 经常碰到本年至今、本月至今的数据计算,其实还有一类计算是,从历史最早日期至今的累计计算,比如从开业到现在总共卖出了多少件商品,累计实现了多少销售额等。 本年累计称为YTD,历史至今的累计是不是可以称为HTD呢:) ;这样的时 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/98975646 如何将表格或者矩阵中值的条件格式也应用于总计行? 目前PowerBI并不支持这种功能,无法在总计行或者小计行上应用条件格式,不过我们可以摸索个变通的方式来实现。 以制作红绿灯效果这篇文章的数据为例: PowerBI小技巧:简 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/67441847 累计求和问题,之前已经介绍过(有了这几个公式,你也可以快速搞定累计求和),主要是基于比较简单的情形,针对所有的数据进行累计求和。 现实中的需求并不总是这么简单,稍微复杂一点的是按类别求累计,以帕累托分析为例,模拟数据如下, 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/68384001 本文聊聊在PowerBI中如何进行各种类型的排名问题。 PowerBI中计算排名主要使用RANKX函数,关于该函数的具体语法,不再细说,可以查看该函数的官方文档,也可以参照这个函数卡片: ↑ 知识星球每日函数卡片 下面通过几 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/67015995 编写DAX代码进行业务分析时,经常会用到表与表之间的连接计算,比如在之前的产品关联分析一文中(如何用Power BI分析产品关联度?),需要找出同时购买两种商品的客户,就是计算A商品的客户列表与B商品的客户列表的交集。 这篇 阅读全文