kaggle比赛实践M5-数据集介绍

M5比赛

M5竞赛是M竞赛中最新的一次,将于2020年3月2日至6月30日举行。它与前四届竞赛有五个重要方面的差异,其中一些是M4竞赛的讨论者提出的。

  • 它使用沃尔玛慷慨提供的分层销售数据,从商品级别开始,再汇总到美国三个地理区域(加利福尼亚州,德克萨斯州和威斯康星州)的部门,产品类别和商店。
  • 除时间序列数据外,它还包括影响价格的解释变量,例如价格,促销,星期几和特殊事件(例如超级碗,情人节和东正教复活节),这些变量用于提高预测准确性。
  • 正在通过要求参与者提供有关四个指示性预测间隔和中位数的信息来评估不确定性的分布。
  • 在超过42,840个时间序列中,大多数显示间歇性(零销售,包括零销售)。
  • 代替具有单个竞争来估计点预测和不确定性分布,将有两个2个使用平行的轨道相同的数据集,所述第一要求28天向前指向的预测和所述第二28天提前为中位数和四个预测概率预报间隔(50%,67%,95%和99%)。
  • 第一次,它着重于显示间歇性的序列,即偶发的需求,包括零。

目标

M5竞赛的目标与前四个相似:即针对需要预测并进行不确定性估计的不同类型的情况,确定最合适的方法。其最终目的是推进预测理论并提高商业和非营利组织的利用率。它的另一个目标是将ML和DL方法的准确性/不确定性与标准统计方法的准确性/不确定性进行比较,并评估可能的改进与使用各种方法的额外复杂性和更高的成本。

期望与方法内容

鉴于前四届M竞赛的成功,吸引了众多参与者,并且做出了巨大贡献,从根本上改变了预测领域,针对快速发展的数据科学的M5竞赛有望取得相似甚至更高的成就。

社区,可以轻松访问M5数据集。它将使用Kaggle平台运行,预计参与者人数将达到数千。

目标

M5预测比赛的目标是通过确定为比赛的42840个时间序列中的每个时间序列提供最准确的点预测的方法来推进预测的理论和实践。另外,为了获得尽可能精确地估计这些序列的已实现值的不确定性分布的信息。

为此,M5的参赛者被要求为所有系列比赛提供28天的提前点预测(PFs),以及相应的中位数和50%、67%、95%和99%的预测区间(PIs)。

M5在五个重要方面与前四个有所不同,M4比赛的讨论者建议如下:

  1. 它使用分组单位销售数据,从产品商店级别开始,汇总到产品部门、产品类别、商店和三个地理区域:加利福尼亚州(CA)、德克萨斯州(TX)和威斯康星州(WI)。
  2. 除了时间序列数据外,它还包括解释性变量,如销售价格、促销活动、一周中的几天,以及特别活动(如超级碗、情人节和正统复活节),这些活动通常会影响单位销售额,并可提高预测的准确性。
  3. 除了点预测之外,它还评估不确定性的分布,因为要求参与者提供关于九个指示性分位数的信息。
  4. 与单一竞争来估计点预测和不确定性分布不同,将有两条使用同一数据集的平行轨迹,第一条需要提前28天预测点,第二条需要提前28天预测中值和四个预测区间的概率预测(50%、67%、95%,以及99%。
  5. 它首次将重点放在显示间歇性的序列上,即包括零在内的零星需求。

时间与举办

M5将于2020年3月2日开始,同年6月30日结束。比赛将使用Kaggle平台进行。因此,我们期望所有类型的预测者,包括数据科学家、统计学家和实践者提交许多资料,扩大预测领域,并最终整合其各种方法,以提高准确性和不确定性估计。

比赛将使用同一数据集,分为两个单独的卡格尔比赛,第一个(M5预测比赛-准确度)需要提前28天进行预测,第二个(M5预测比赛-不确定度)需要提前28天进行相应中值和四个预测区间的概率预测(50%,67%,95%和99%)。

为了支持参赛者验证他们的预测方法,比赛将包括一个验证阶段,从2020年3月2日到同年5月31日。在这一阶段,参与者将被允许使用组织者最初提供的数据来训练他们的预测方法,并使用一个28天的隐藏样本来验证他们的方法的性能,该样本没有公开。通过在Kaggle平台提交他们的预测(每天最多5个条目),参与者将被告知他们提交的分数,然后将在Kaggle的实时排行榜上公布。考虑到这种即时反馈,参与者可以通过从收到的反馈中学习,有效地修改和重新提交他们的预测。

验证阶段结束后,即从2020年6月1日至同年6月30日,将向参与者提供验证阶段用于评估其绩效的28天数据的实际值。然后,他们将被要求重新估计或调整(如果需要)他们的预测模型,以便提交他们在随后28天的最终预测和预测间隔,即用于对参与者进行最终评估的数据。在此期间,将没有排行榜,这意味着在提交预测后,将不会向参与者提供有关其分数的反馈。因此,尽管参与者可以随时自由地(重新)提交他们的预测(每天最多5个条目),但他们不会知道他们的绝对预测以及他们的相对表现。参赛者的最终排名将只在比赛结束时公布,届时将公布测试数据。这样做是为了让竞争对手尽可能地模拟现实,因为在现实生活中预测者并不知道未来。

请注意,提交系统将在比赛开始时开放,这意味着参赛者将能够在2020年3月2日至2020年6月30日提交最终预测,即使是在验证阶段。然而,如前所述,完整的M5培训样本(包括用于验证阶段排行榜的28天)将于2020年6月1日才提供。因此,在验证阶段提交最终预测的任何参与者都将错过完整培训样本的最后28天。

另请注意,M5将分为两个轨道,一个需要预测点,另一个需要估计不确定性分布,每个轨道的奖金分别为50000美元。因此,在Kaggle平台上可以看到两个单独的比赛,每个比赛都有各自的排行榜。参赛者可参加比赛,并有资格获得第一、第二或两者的奖品。

数据集

由沃尔玛慷慨提供的M5数据集涉及在美国销售的各种产品的单位销售额,以分组时间序列的形式组织。更具体地说,该数据集涉及3049种产品的单位销售额,分为3个产品类别(爱好、食品和家庭)和7个产品部门,其中对上述类别进行了分类。

这些产品在三个州(加州、德克萨斯州和威斯康星州)的十家商店销售。在这方面,层次结构的底层,即产品商店单元销售,可以映射到产品类别或地理区域,如下所示:

 

 

 图1:M5系列如何组织的概述。

历史数据范围为2011年1月29日至2016年6月19日。因此,产品的(最大)销售历史为1941天/5.4年(不包括h=28天的测试数据)。

M5数据集由以下(3)个文件组成:

File 1: “calendar.csv”

该数据数聚包含物品的售卖时间与物品类型

  • date: The date in a “y-m-d” format.
  • wm_yr_wk: The id of the week the date belongs to.
  • weekday: The type of the day (Saturday, Sunday, …, Friday).
  • wday: The id of the weekday, starting from Saturday.
  • month: The month of the date.
  • year: The year of the date.
  • event_name_1: If the date includes an event, the name of this event.
  • event_type_1: If the date includes an event, the type of this event.
  • event_name_2: If the date includes a second event, the name of this event.
  • event_type_2: If the date includes a second event, the type of this event.
  • snap_CA, snap_TX, and snap_WI: A binary variable (0 or 1) indicating whether the stores of CA, TX or WI allow SNAPpurchases on the examined date. 1 indicates that SNAP purchases are allowed.

File 2: “sell_prices.csv”

该数据数聚包含物品的每天每单位的售卖价格

  • store_id: The id of the store where the product is sold.
  • item_id: The id of the product.
  • wm_yr_wk: The id of the week.
  • sell_price: The price of the product for the given week/store. The price is provided per week (average across seven days). If not available, this means that the product was not sold during the examined week. Note that although prices are constant at weekly basis, they may change through time (both training and test set). 

File 3: “sales_train.csv”

Contains the historical daily unit sales data per product and store.

  • item_id: The id of the product.
  • dept_id: The id of the department the product belongs to.
  • cat_id: The id of the category the product belongs to.
  • store_id: The id of the store where the product is sold.
  • state_id: The State where the store is located.
  • d_1, d_2, …, d_i, … d_1941: The number of units sold at day i, starting from 2011-01-29.

评价方法

预测期

点预测和概率预测所需的预测数为h=28天(提前4周)。

 

首先,通过在预测范围内平均每个序列的值,分别计算每个序列的性能度量,然后以加权方式(见下文)在序列内再次平均,以获得最终分数。

 

点预测

将使用均方根标度误差(RMSSE)来评估点预测的准确性,RMSSE是由Hyndman和Koehler(2006)提出的著名的平均绝对标度误差(MASE)的变体。每个系列的测量值计算如下:

哪里是t点上被检验时间序列的实际未来值,生成的预测,n为训练样本的长度(历史观测数),h为预测范围。

 

请注意,RMSSE的分母仅在被检查产品被积极销售的时间段内计算,即在对被评估系列观察到的第一个非零需求之后的时间段。

 

措施的选择理由如下:

·     ·  M5系列的特点是间歇性,涉及零星的单位销售与大量零。这意味着,为中位数优化的绝对误差会给预测方法分配较低的分数(更好的性能),从而得出接近于零的预测。

                                                         然而,M5的目标是准确预测平均需求,因此,所使用的精度测量建立在平方误差的基础上,平方误差是针对平均值进行优化的。

  •      该方法与尺度无关,这意味着它可以有效地用于比较不同尺度的序列预测。
  •      与其他度量相比,它可以安全地计算,因为它不依赖于具有等于或接近于零的值的除法(例如,当或用于缩放的基准的误差为零时的相对误差)。
  •      这项措施对正、负预测误差以及大、小预测进行同等惩罚,因此是对称的。

在对比赛的所有42840个时间序列的RMSSE进行估计之后,将使用加权RMSSE(WRMSSE)对参与方法进行排名,如本指南后面所述,使用以下公式:

    

哪里系列比赛。WRMSSE分数越低越好。

请注意,每个系列的权重将根据数据集的培训样本的最后28个观察值计算,即每个系列在该特定时期内显示的累计实际美元销售额(单位销售额的总和乘以其各自的价格)。计算WRMSSE的指示性示例将在竞争对手的GitHub[5]存储库中提供。

 

概率预报

 

概率预报的精度将用标度弹球损失(SPL)函数进行评估。每个系列和分位数的测量值计算如下:

 

哪里是t点上被检验时间序列的实际未来值,生成的分位数u的预测,h的预测范围,n的训练样本长度(历史观察的数量),1的指标函数(如果Y在假设区间内,则为1,否则为0)。

 

与RMSSE一样,SPL的分母仅在检查项目/产品被积极销售的时间段内计算,即在对被评估系列观察到的第一个非零需求之后的时间段。

 

鉴于预测者将被要求提供中位数,以及50%、67%、95%和99%的PIs,设置为u1=0.005、u2=0.025、u3=0.165、u4=0.25、u5=0.5、u6=0.75、u7=0.835、u8=0.975和u9=0.995。u的较小值对应于分布的左侧,而较高值对应于分布的右侧,其中u=0.5为中值。中位数以及50%和67%的PIs提供了一个很好的分布中间的感觉,而95%和99%的PIs提供了关于其尾部的信息,这对于极高或极低结果的风险是很重要的。

在对比赛的所有42840时间序列和所有请求的分位数估计SPL之后,将使用本指南后面描述的加权SPL(WSPL)除以9(所有序列中9个分位数的平均性能),使用以下公式对参与方法进行排序:

哪里系列比赛这个从被检查的分位数中取出。WSPL得分越低越好。

措施的选择理由如下:

·PL的缩放方式与RMSSE类似,这意味着它可以有效地用于比较不同尺度的序列预测。此外,SPL可以安全地计算,因为它不依赖于值可以等于零的除法。

 

·由于M5不关注特定的决策问题,也不定义这样一个问题的确切参数(这也可能因聚合级别和序列的不同而不同),因此很明显,所有分位数都可能是有用的。此外,由于M5的目标是尽可能精确地估计检验序列的已实现值的不确定度分布,因此认为分布的两边和两端都是相关的。在这方面,没有给被检查的分位数分配特殊的权重,因此它们的权重相等。

请注意,每个系列的权重将再次基于数据集的培训样本的最后28个观察值计算,即每个系列在该特定时期内显示的累计实际美元销售额(单位销售额的总和乘以其各自的价格)。计算WSPL的指示性示例将在竞争对手的GitHub存储库中提供。

加权

与之前的M竞争不同,M5涉及以分层方式组织的不同销售量和价格的各种产品的单位销售。这意味着,就业务而言,为了使方法表现良好,它必须在所有层级提供准确的预测,特别是对于高度重要的系列,即代表重大销售的系列,以美元计量。换言之,我们期望从性能最好的预测方法中得出对公司更有价值的序列的较低预测误差。

 

为此,每个参与方法(RMSSE和SPL)计算的预测误差将根据其累计实际美元销售额在M5系列中进行加权,这是一个很好且客观的货币价值代表。累积美元销售额将使用培训样本的最后28个观察值(单位销售额的总和乘以其各自的价格)计算,即等于预测期的期间。请注意,由于出售的单元数量和它们各自的价格随着时间的变化而变化,此估计是基于相应的每日美元销售额之和。

 

以下是一个简单的示例,说明如何计算这些权重:

 

假设同一部门的两种产品,A和B,在WI的一家商店里销售,我们有兴趣预测这两种产品的单位销售额及其总销售额。因此,在本例中,我们考虑两个不同的聚合级别(K=2),第一个级别由两个系列(系列A和B)组成,第二个级别由单个系列(系列A和B之和)组成。

 

在培训样本的最后28天,产品A的销售额总计为10美元,而产品B的销售额为12美元。因此,过去28天,A和B产品的美元总销售额为22美元。还假设使用预测方法导出产品a、产品B及其总单位销售额的点预测,分别显示错误RMSSE a=0.8、RMSSE B=0.7和RMSSE=0.77。如果M5数据集只涉及这三个序列,那么该方法的最终WRMSSE得分将是

 

 

.

 

如前所述,可以扩展此加权方案以考虑更多的商店、地理区域、产品类别和产品部门。由于M5竞争涉及12个聚合级别,因此K被设置为12,并计算序列的权重,以便在每个聚合级别将其相加为1。

 

分别用上述公式中用于估计WRMSSE的RMSSE替换为SPL来计算WSPL。

 

请注意,所有层级的权重都是相等的。原因是,一个产品在所有三个州的总美元销售额,等于在所有十个商店的美元销售额之和。同样,因为商店的产品类别的总美元销售额等于该类别所包含部门的美元销售额之和,以及相应部门产品的美元销售额之和。此外,正如前面讨论的概率预测的情况,M5不关注特定的决策问题,这意味着没有理由对层次结构的各个层次进行不平等的加权。

计算WRMSSE和WSPL的指示性示例将在竞争对手的GitHub存储库中提供,其中指明竞争对手中每个系列的确切权重。

奖品

奖金分配

 

将有12个主要奖项授予M5比赛的获胜者,这些奖项将根据(i)他们的预测优于的等级和(ii)更好地捕捉到的不确定性分布的分位数在参与者之间进一步分配。该奖项将于2020年12月8日在纽约市举行的M5预测会议期间颁发。在这一天,Kaggle将使用其合作公司Payneer以数字方式发布支付。

10万美元奖金将在预测和不确定性M5竞赛中平均分配如下:

奖品编号

奖品

数量

1A号

最准确的点预测

25000美元

二甲

第二准确点预测

10000美元

3A级

第三准确点预测

5000美元

4A级

第四准确点预测

3000美元

5A级

第五准确点预测

2000美元

六甲

最准确的学生积分预测

5000美元

 

总计:M5预测竞争点预测

50000美元

 

 

 

1B段

不确定度分布的最精确估计

25000美元

2B级

不确定度分布的第二精确估计

10000美元

3B段

不确定度分布的第三精确估计

5000美元

4B级

不确定度分布的第四精确估计

3000美元

50亿

不确定度分布的第五精确估计

2000美元

6亿

不确定度分布的最精确学生估计

5000美元

 

总计:M5预测竞争-不确定性分布

50000美元

 

 

总计:M5比赛

10万美元

 

再现性

获奖的前提条件是,除提供预测服务的公司和声称拥有专有软件的公司外,用于生成预测的代码将在比赛结束后14天内(即2020年7月14日)在GitHub上发布。此外,还必须说明如何准确再现M5提交的预测。在这方面,个人和公司将能够使用守则和所提供的指示,将制定守则的个人/集团记入贷方,以改进其组织预测。

 

提供预测服务的公司和那些声称拥有专有软件的公司必须向组织者提供他们的预测是如何作出的详细描述,以及再现他们的预测的来源或执行文件。鉴于客观性和可复制性的重要性,此类描述和文件对于赢得比赛的任何奖项都是强制性的。如果源程序需要保密,则可以提交执行文件,或者,也可以提交具有运行终止日期的源程序。

 

在收到复制所提交预测的代码/程序/文件后,组织者将根据再现性评估其结果。由于某些方法可能涉及随机初始化,因此任何显示可复制率高于98%的方法都将被视为完全可复制并被授予奖品,与M4中所做的完全相同。否则,该奖项将颁给下一届表现最佳、完全可复制的参赛作品。

出版物

类似于M3和M4比赛,《国际预测杂志》(IJF)将专门出版一期专刊,专门讨论M5比赛的各个方面,特别强调我们所学到的知识以及如何利用这些知识改进预测的理论和实践,并扩大其有用性和适用性。

基准

与M4比赛一样,将有基准方法,24(24)个用于点预测,6(6)个用于概率预测。由于这些方法是众所周知的、现成的和简单易用的,提交给M5竞赛的新的精度必须提供更高的精度,以便在实践中加以考虑和使用(同时考虑到使用比计算要求最低的基准更精确的方法所需的计算时间)。

 

点预测

 

统计基准

 

1.朴素模型:随机游走模型,定义为

预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

2.季节型朴素模型:很简单,但这次模型的预测值等于同一时期的最后一次已知观测值,以便捕捉可能的每周季节变化。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

3.简单指数平滑[6](SES):最简单的指数平滑模型,旨在预测没有趋势的序列,定义为

平滑参数a通过最小化模型的样本均方误差(MSE)从范围[0.1,0.3]中选择,而序列的第一个观测值用于初始化。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

4.移动平均(MA):预测是通过对序列的最后k个观测值进行平均来计算的,如下所示

其中k是通过最小化样本MSE从范围[2,5]中选择的。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

5.克罗斯顿方法[7](CRO):克罗斯顿提出的预测显示间歇性需求序列的方法。该方法将原始序列分解为非零需求量以及需求间隔,预测结果如下:

其中两者使用SES预测。两个组件的平滑参数均设置为0.1。组件的第一次观察用于初始化。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

6.优化克罗斯顿法(optCro):像CRO一样,但是这次平滑参数是从范围[0.1,0.3]中选择的,就像使用SES一样,以便允许更大的灵活性。使用(潜在的)不同的a参数分别平滑非零需求大小和需求间隔。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

7.Syntetos-Boylan近似[8](SBA):克罗斯顿方法的一种变体,它使用如下的借记因子:

预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

8.Teunter Syntetos-Babai方法[9](TSB):对Croston方法的修改,该方法用需求概率替换需求间隔分量,,如果在时间t发生需求,则为1,否则为0。类似于克罗斯顿的方法,使用SES进行预测。的平滑参数可能与optCRO完全不同。预测如下:

预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

9.总分解间歇需求法[10](ADIDA):时间聚集用于减少零观测值的存在,从而减轻间隔中观测到的方差的不良影响。ADIDA使用大小相等的时间段来执行非重叠的时间聚合,并在预先指定的提前期内预测需求。时间段设置为平均需求间隔。SES用于获取预测。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

10.间歇多重聚集预测算法[11](iMAPA):在需求预测中实现时间聚集的另一种方法。然而,与考虑单一聚合级别的ADIDA不同,iMAPA考虑多个聚合级别,目的是捕获不同的数据动态。因此,iMAPA通过平均使用SES生成的导出点预测来进行。最大聚合级别设置为等于最大请求间间隔。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

11.指数平滑[12]-自上而下(ES_td):利用一种算法来选择最合适的指数平滑模型来预测层次结构的顶层序列(表1的1级),通过信息准则来表示。自上而下的方法用于调节(基于过去28天的估计历史比例)。

12.指数平滑-自下而上(ES_bu):使用一种算法来选择最合适的指数平滑模型来预测层次结构的底层序列(表1的12级),通过信息准则来表示。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

13.指数平滑解释变量(ESX):与ES类似,但这次使用了两个解释变量作为回归函数,通过提供有关未来的附加信息来提高预测精度。第一个变量是离散的,根据在检查日期允许快速购买的状态数,取0、1、2或3的值。第二个变量是二进制的,指示检查日期是否包含特殊事件(1)或不包含特殊事件(0)。自上而下的方法用于调节(基于过去28天的估计历史比例)。

14.自回归综合移动平均值[13]-自上而下(ARIMA_td):采用一种算法来选择最合适的ARIMA模型来预测层次结构的顶层序列(表1的1级),通过信息准则来表示。自上而下的方法用于调节(基于过去28天的估计历史比例)。

15.自回归综合移动平均线-自下而上(ARIMA_bu):使用一种算法来选择最合适的ARIMA模型来预测层次结构的底层序列(表1的12层),通过信息准则来表示。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

16.带解释变量的自回归综合移动平均(ARIMAX):与ARIMA类似,但这次使用了两个外部变量作为回归函数,通过提供有关未来的附加信息来提高预测精度,与ESX的情况完全相同。自上而下的方法用于调节(基于过去28天的估计历史比例)。

机器学习基准

17.多层感知器(MLP):由14个输入节点(最后两周的可用数据)、28个隐藏节点和一个输出节点组成的单个隐藏层NN。采用比例共轭梯度法估计随机初始化的权值,最大迭代次数设为500。隐层和输出层的激活函数分别为logistic函数和线性函数。总共,训练10个mlp来预测每个序列,然后使用中值算子对各个预测进行平均,以减少由于权重初始化不当而可能出现的变化。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

18.随机森林(RF):这是一个多元回归树的组合,每个回归树取决于独立采样的具有相同分布的随机向量的值。考虑到RF平均了多棵树的预测,它对噪声的鲁棒性更强,也不太可能过度拟合训练数据。我们考虑总共500棵未修剪的树和四个随机抽样变量在每个分裂。引导采样是通过替换完成的。与MLP一样,该序列的最后14个观测值被考虑用于训练模型。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

19.全局多层感知器(GMLP):与MLP类似,但这次,不是为每个系列训练多个模型,而是构建一个跨所有系列学习的模型。这是因为M4表明了交叉学习的有益效果。每个序列的最后14个观测值作为输入,以及关于非零需求变化系数(CV2)和两个连续非零需求之间的平均时段数(ADI)的信息。使用这些附加信息是为了促进跨一系列不同特征的学习。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

20.全局随机森林(GRF):与GMLP类似,但不是使用MLP来获取预测,而是利用RF。预测方法用于预测层次结构最底层(表1的12层)的序列,然后使用自下而上的方法进行调节。

组合基准

 

21.使用自下而上方法计算的ES和ARIMA的平均值(Com_b):ESúbu和ARIMAúbu的简单算术平均数。

 

22.使用自上而下方法(Com)计算的ES和ARIMA的平均值:ES_td和ARIMA_td的简单算术平均数。

 

23.两种ES方法的平均值,第一种使用自上而下方法计算,第二种使用自下而上方法(Com_-tb):ES_td和ES_bu的简单算术平均数。

 

24.全球和本地MLP的平均值(Com_lg):MLP和GMLP的简单算术平均值。然后使用自下而上的方法进行对帐。

请注意,基准方法{1-10、12、15、17-20}应用于层次结构数据集的产品存储级别。因此,自下而上的方法被用于获取其余层次结构级别的已协调预测。另一方面,基准方法{11、13、14、16}被应用于层次结构数据集的顶层。因此,自上而下的方法用于获得其余层级的调整预测(基于过去28天的估计历史比例)。

 

概率预报

 

一、 天真的:与用于计算点预测的Naive 1类似的实现。

二、季节性天真的:与用于计算点预测的sNaive实现类似。

三、简单指数平滑(SES):类似于用于计算点预测的SES实现。

四、指数平滑:与用于计算点预测的ES_bu实现类似。

五、 自回归综合移动平均(ARIMA):类似于用于计算点预报的ARIMA_bu算法。

六、核密度估计(核):核函数用于估计历史数据中相应的分位数,然后将其用作概率预测。

生成上述基准预测的代码将在竞争对手的GitHub存储库中提供。

基准没有资格获得奖金,这意味着即使基准的表现优于参与者提交的预测,总金额也将分配给竞争对手。同样,与组织者和数据提供程序关联的任何参与方法都将不符合价格要求。

提交

 

两项比赛的预测将通过Kaggle平台提交。组织者通过平台提供的模板可用于此目的。

注意,点预测模板(M5预测-准确度)仅指30490系列,该系列包括数据集的最低层次(表1的12级),而不是竞争的所有42840(表1的所有级)。之所以这样做,是因为M5与M4、M3和其他预测竞争(时间序列大多不相关)不同,它处理的是现实生活中的分层预测问题。这意味着提交的预测必须遵循这一层次概念,并因此保持一致(较低级别的预测必须与较高级别的预测相加)。换言之,假设用于预测所有42840系列竞争性相关预测的预测方法,并且因此,可以通过将层次结构中最低层次的预测相加(求和)来自动计算所有层次的预测。

需要注意的是,参与者可以完全自由地使用他们选择的预测方法来预测单个序列。但是,这样做之后,只要提交最低水平的预测,就可以假定,在提交最后评估之前,已核对了得出的预测。

例如,参与者可以仅预测底层的序列,并使用自下而上的调节方法导出剩余的预测。另一个参与者可能只预测顶层的序列,并使用比例(自上而下的调节方法)得到较低层的序列。前两种方法也可以混合使用(中间调节法)。最后,预测各层次的序列,并通过适当的加权方案得到最低层次的序列也是一种选择。基准描述了其中一些选项,包括一些指示性预测方法,这些方法利用自下而上(例如基准12)和自上而下(例如基准11)调节方法,以及这两种方法的组合(例如基准23)。

最后,考虑到没有一种直接且行之有效的方法来协调概率预测,概率预测模板(M5预测-不确定性)要求输入所有42840系列竞争。因此,在这种情况下,参与者不需要使用上述任何方法来协调预测。

 

 

 

posted @ 2020-04-26 16:30  wqbin  阅读(4852)  评论(0编辑  收藏  举报