元数据和测量尺度
修改元数据
概述
“修改元数据”节点用于显示检测到的元数据或者输入的元数据信息,为后续的模型训练和应用做必要的准备。
用户可以修改本节点的测量尺度(包括测量尺度、值)和角色,修改后的测量尺度和角色会被检测是否满足一致性要求。
- 当测量尺度修改完成后,会根据类型来进行一致性检查。
- 当角色修改完成后,会根据测量尺度来进行一致性检查。
类型、测量尺度和角色的分类如表1所示。
名称 |
类型 |
测量尺度 |
值 |
角色 |
---|---|---|---|---|
Id_1 |
String |
Nominal |
F,M,L |
Input |
Id_2 |
Integer |
Flag |
23,47 |
Target |
Id_3 |
Real |
Continuous |
0.69 – 0.79 |
Input |
Id_4 |
Date |
Ordinal |
2001-01-01,2001-02-01,2001-03-01 |
Input |
Id_5 |
Timestamp |
Typeless |
空 |
None |
其中类型说明如表2所示。
类型 |
说明 |
---|---|
String |
用于包含非数值的变量(属性),字符串是任何一个字符序列,例如fred,class 2,或者1234。需要注意的是在字符串中的数据是不能用于计算的。 |
Integer |
字段是整数的值。 |
Real |
值是数字类型(包括整数和小数类型),显示格式由MLS设置决定。 |
Date |
时间类型按照年月日的标准(例如2007-09-26),显示格式由MLS设置决定。 |
Timestamp |
包含日期和时间(例如:2007-09-26 09:04:00),显示格式由MLS设置决定。 |
一致性检测规则如下:
- 如果某个字段的“类型”是“String”,则“测量尺度”不能设置为“Continuous”。
- 如果某个字段的“值”数量超过100个,则“测量尺度”不能设置为“Flag”、“Nominal”、“Ordinal”。
- 如果某个字段的“值”数量不是2个,则“测量尺度”不能设置为“Flag”。
- 如果某个字段的“测量尺度”是“Typeless”,则“角色”只能被设置为“None”。
输入与输出
- 输入:数据集。
- 输出:数据集。
参数说明
参数 |
参数说明 |
---|---|
设置元数据 |
单击,可以修改以下参数:
单击,可删除指定的元数据参数。 |
类型 |
说明 |
---|---|
空 |
表示不修改原有角色。 |
ID |
样本的ID。通常这个属性在整个样本集中是独一无二的。 |
Input |
用作机器学习的输入,作为预测变量。未被设为其他特殊角色的都默认为Input。 |
Target |
机器学习算法的输入,作为被预测变量。 |
None |
被机器学习算法忽略的变量。 当“测量尺度”设置成“Typeless”时,该参数必须设置为“None”。 |
Frequency |
设置建模中每个样本的频数权重。只能是Numeric变量。 |
Both |
可同时用于Input和Target的变量。 |
Split |
按该字段的不同取值来划分数据集,每个数据集建立一个模型。 |
Partition |
用于把数据分割成Training、Testing和Validation的变量。 |
衡量 |
说明 |
---|---|
Continuous |
用于描述数值,一个连续值可以是一个整数、实数或者date/time/timestamp。 |
Nominal |
用于描述具有多个不同值的数据,例如small/medium/large。 Nominal可以是任何存储变量(numeric,string,date/time/timestamp)。 |
Ordinal |
用于描述具有多个不同值但有序的数据,如对运动的喜欢程度排序。 |
Flag |
用于描述只有两个不同值的数据并且表示某一个特性的存在或者不存在。例如true和false。 Flag可以是string、integer、real、date或者timestamp。 |
Typeless |
用于描述不属于前面四种类型的数据。例如只有一个值的变量。 |
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡