机器学习PAL数据预处理

机器学习PAL数据预处理

本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。

前提条件

完成数据准备,详情请参见准备数据

操作步骤

  1. 登录PAI控制台
  2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。在PAI可视化建模页面,单击进入机器学习。                                                                                                                                                                                                                                                       
  3.      
  4. 将组件拖入画布并拼接为实验。
  5. 在左侧菜单栏,单击组件
  6. 在组件列表,选择数据预处理 > 数据合并,将类型转换归一化组件拖入画布。
  7. 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。                                                                                                                                                 
             
  8. 配置组件参数。
  9. 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
  10. 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。                                                                                                                   
                 
  11. 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
  12. 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
  13. 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。                                                                                                                                                                       
        
ii.     
 age,
iii.     
(
 sex 
 
 
 
 
 
 
) 
 sex,
iv.     
(
 cp 
 
 
 
  
 
 
 
 
 
 
) 
 cp,
v.     
trestbps,
vi.     
chol,
vii.     
(
 fbs 
 
 
 
 
 
 
) 
 fbs,
viii.     
(
 restecg 
 
 
 
  
 
 
 
 
 
 
) 
 restecg,
ix.     
thalach,
x.     
(
 exang 
 
 
 
 
 
 
) 
 exang,
xi.     
oldpeak,
xii.     
(
 slop 
 
 
 
  
 
 
 
 
 
 
) 
 slop,
xiii.     
ca,
xiv.     
(
 thal 
 
 
 
  
 
 
 
 
 
 
) 
 thal,
xv.     
(
 
  
 
 
 
 
 
 
) 
 ifHealth
from  ${t1};

拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例

后续步骤

完成数据预处理后,需要进行数据可视化,详情请参见数据可视化

 

posted @   吴建明wujianming  阅读(172)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示