SSAS决策树模型算法参数

所有 Analysis Services 数据挖掘算法都会自动使用功能选择来改善分析效果以及减轻处理工作量。用于功能选择的方法取决于生成模型所用的算法。控制决策树模型的功能选择的算法参数为 MAXIMUM_INPUT_ATTRIBUTES 和 MAXIMUM_OUTPUT。

算法	分析方法	注释
决策树	兴趣性分数 Shannon 平均信息量 Bayesian with K2 Prior Bayesian Dirichlet with uniform prior（默认）	如果任何列包含非二进制连续值，则兴趣性分数将用于所有列，以确保一致性。否则，将使用默认方法或指定的方法。
线性回归	兴趣性分数	线形回归仅使用兴趣性分数，原因是它仅支持连续列。

算法

分析方法

注释

决策树

兴趣性分数

Shannon 平均信息量

Bayesian with K2 Prior

Bayesian Dirichlet with uniform prior（默认）

如果任何列包含非二进制连续值，则兴趣性分数将用于所有列，以确保一致性。否则，将使用默认方法或指定的方法。

线性回归

兴趣性分数

线形回归仅使用兴趣性分数，原因是它仅支持连续列。

自定义决策树算法

Microsoft 决策树算法支持多个参数，这些参数可影响所生成的挖掘模型的性能和准确性。您还可以对挖掘模型列或挖掘结构列设置建模标志来控制数据的处理方式。

设置算法参数

下表介绍了可用于 Microsoft 决策树算法的参数。

COMPLEXITY_PENALTY

控制决策树的增长。值越小，则分叉数越多；值越大，则分叉数越少。默认值基于特定模型的属性数，详见以下列表：

对于 1 到 9 个属性，默认值为 0.5。
对于 10 到 99 个属性，默认值为 0.9。
对于 100 或更多个属性，默认值为 0.99。

FORCE_REGRESSOR

强制算法将指定的列用作回归量，而不考虑算法计算出的列的重要性。此参数只用于预测连续属性的决策树。

注意：
通过设置此参数，您可以强制要求算法尝试将属性用作回归量。但是，属性实际是否会在最终模型中用作回归量取决于分析结果。您可以通过查询模型内容来确定用作了回归量的列。

[SQL Server Enterprise]

MAXIMUM_INPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输入属性数。

默认值为 255。

如果将此值设置为 0，则表示关闭功能选择。

[SQL Server Enterprise]

MAXIMUM_OUTPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输出属性数。

默认值为 255。

如果将此值设置为 0，则表示关闭功能选择。

[SQL Server Enterprise]

MINIMUM_SUPPORT

确定决策树中生成分叉所需的最少叶事例数。

默认值为 10。

如果数据集非常大，则可能需要增大此值，以避免过度定型。

SCORE_METHOD

确定用于计算分叉分数的方法。可用选项如下：

ID	名称
1	Entropy
2	Bayesian with K2 Prior
3	Bayesian Dirichlet Equivalent (BDE) Prior （默认值）

名称

Entropy

Bayesian with K2 Prior

Bayesian Dirichlet Equivalent (BDE) Prior

（默认值）

默认值为 3。

有关这些计分方法的说明，请参阅功能选择。

SPLIT_METHOD

确定用于拆分节点的方法。可用选项如下：

ID	名称
1	Binary: 指示无论属性值的实际数量是多少，树都拆分为两个分支。
2	Complete: 指示树可以创建与属性值数目相同的分叉。
3	Both: 指定 Analysis Services 可确定应使用 binary 还是 complete，以获得最佳结果。

默认值为 3。

posted on 2010-05-12 11:55 小司阅读(791) 评论(0) 编辑收藏举报