Fork me on GitHub

元数据和测量尺度

修改元数据

概述

“修改元数据”节点用于显示检测到的元数据或者输入的元数据信息,为后续的模型训练和应用做必要的准备。

用户可以修改本节点的测量尺度(包括测量尺度、值)和角色,修改后的测量尺度和角色会被检测是否满足一致性要求。

  • 当测量尺度修改完成后,会根据类型来进行一致性检查。
  • 当角色修改完成后,会根据测量尺度来进行一致性检查。

类型、测量尺度和角色的分类如表1所示。

表1 分类说明

名称

类型

测量尺度

角色

Id_1

String

Nominal

F,M,L

Input

Id_2

Integer

Flag

23,47

Target

Id_3

Real

Continuous

0.69 – 0.79

Input

Id_4

Date

Ordinal

2001-01-01,2001-02-01,2001-03-01

Input

Id_5

Timestamp

Typeless

None

其中类型说明如表2所示。

表2 类型说明

类型

说明

String

用于包含非数值的变量(属性),字符串是任何一个字符序列,例如fred,class 2,或者1234。需要注意的是在字符串中的数据是不能用于计算的。

Integer

字段是整数的值。

Real

值是数字类型(包括整数和小数类型),显示格式由MLS设置决定。

Date

时间类型按照年月日的标准(例如2007-09-26),显示格式由MLS设置决定。

Timestamp

包含日期和时间(例如:2007-09-26 09:04:00),显示格式由MLS设置决定。

一致性检测规则如下:

  • 如果某个字段的“类型”是“String”,则“测量尺度”不能设置为“Continuous”。
  • 如果某个字段的“值”数量超过100个,则“测量尺度”不能设置为“Flag”、“Nominal”、“Ordinal”。
  • 如果某个字段的“值”数量不是2个,则“测量尺度”不能设置为“Flag”。
  • 如果某个字段的“测量尺度”是“Typeless”,则“角色”只能被设置为“None”。

输入与输出

  • 输入:数据集。
  • 输出:数据集。

参数说明

表3 “修改元数据”节点参数说明

参数

参数说明

设置元数据

单击,可以修改以下参数:

  • 字段:字段名。手动输入,以大小写字母开头,包含大小写字母、数字和下划线。
  • 角色:具体参见表4。
  • 测量尺度:具体请参见表5。
  • 值,当“测量尺度”选择“Continue”、“Nominal”、“Ordinal”、“Flag”时可见。
  • 输入数据模式
  • 输出数据模式

单击,可删除指定的元数据参数。

表4 角色说明

类型

说明

表示不修改原有角色。

ID

样本的ID。通常这个属性在整个样本集中是独一无二的。

Input

用作机器学习的输入,作为预测变量。未被设为其他特殊角色的都默认为Input。

Target

机器学习算法的输入,作为被预测变量。

None

被机器学习算法忽略的变量。

“测量尺度”设置成“Typeless”时,该参数必须设置为“None”。

Frequency

设置建模中每个样本的频数权重。只能是Numeric变量。

Both

可同时用于Input和Target的变量。

Split

按该字段的不同取值来划分数据集,每个数据集建立一个模型。

Partition

用于把数据分割成Training、Testing和Validation的变量。

表5 测量尺度说明

衡量

说明

Continuous

用于描述数值,一个连续值可以是一个整数、实数或者date/time/timestamp。

Nominal

用于描述具有多个不同值的数据,例如small/medium/large。

Nominal可以是任何存储变量(numeric,string,date/time/timestamp)。

Ordinal

用于描述具有多个不同值但有序的数据,如对运动的喜欢程度排序。

Flag

用于描述只有两个不同值的数据并且表示某一个特性的存在或者不存在。例如true和false。

Flag可以是string、integer、real、date或者timestamp。

Typeless

用于描述不属于前面四种类型的数据。例如只有一个值的变量。

 

posted @ 2018-10-30 15:13  stardsd  阅读(748)  评论(0编辑  收藏  举报