机器学习PAL数据预处理
机器学习PAL数据预处理
本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。
前提条件
完成数据准备,详情请参见准备数据。
操作步骤
- 登录PAI控制台。
- 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。在PAI可视化建模页面,单击进入机器学习。
- 将组件拖入画布并拼接为实验。
- 在左侧菜单栏,单击组件。
- 在组件列表,选择数据预处理 > 数据合并,将类型转换和归一化组件拖入画布。
- 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。
- 配置组件参数。
- 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
- 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。
- 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
- 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
- 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。
ii.
selectage,
iii.
(
casesex
when'male'
then
1
else
0
end
)
assex,
iv.
(
casecp
when'angina'
then
0
when
'notang'
then
1
else
2
end
)
ascp,
v.
trestbps,
vi.
chol,
vii.
(
casefbs
when'true'
then
1
else
0
end
)
asfbs,
viii.
(
caserestecg
when'norm'
then
0
when
'abn'
then
1
else
2
end
)
asrestecg,
ix.
thalach,
x.
(
caseexang
when'true'
then
1
else
0
end
)
asexang,
xi.
oldpeak,
xii.
(
caseslop
when'up'
then
0
when
'flat'
then
1
else
2
end
)
asslop,
xiii.
ca,
xiv.
(
casethal
when'norm'
then
0
when
'fix'
then
1
else
2
end
)
asthal,
xv.
(
casestatus
when
'sick'
then
1
else
0
end
)
asifHealth
from ${t1};
拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例。
后续步骤
完成数据预处理后,需要进行数据可视化,详情请参见数据可视化。
人工智能芯片与自动驾驶