人工智能实战2019第七次作业(OpenPAI) 16721088 焦宇恒

项目 内容
这个作业属于哪个课程 人工智能实战2019
这个作业的要求在哪里 OpenPAI与NNI的使用
我在本作业的目标 学习OpenPAI的使用

学习OpenPAI的使用

OpenPAI简介

​ OpenPAI用于管理计算资源,并对机器学习任务进行了优化。通过Docker技术,硬件计算资源与软件相分离。这样,用户能轻松的进行分布式计算,在不同的深度学习框架间切换,也能在完全一致的环境中重复运行作业。适用场景如下:

  • 在团队间共享强大的AI计算资源(例如,GPU,FPGA集群)。
  • 在组织内共享或重用AI资产(如模型,数据,运行环境等)。
  • 构建易于IT运维的AI计算平台。
  • 在同一个环境中完成模型训练过程。

OpenPAI使用体验

​ 在安装扩展OpenPAI VS Code后,可直接在VS Code中使用OpenPAI。

  1. Use shortcut key Ctrl+Shift+P to open command palette.

  2. input and look for PAI:Add PAI Cluster as below.

  3. press Enter,and it takes to input the host of OpenPAI.

  4. 之后,会弹出的集群配置文件,填写"username"和”password”并保存配置。

  5. 添加文件,文件夹需要包含以下项:

    • init_.py: 用于调用filetrans.py
    • filetrans.py:实现hdfs和docker container之间的数据传输操作。主要实现数据download和upload
    • run_samples.py:实现整个训练过程,包括下载数据,训练模型,上传结果模型
    • train.sh: 训练模型的脚本命令
  6. 添加任务:

    • 双击Create Job Config…创建配置文件。本例中直接copy了实例中的JSON文件,修改了jobname(便于后面辨认出自己提交的任务)
    {
        "jobName": "jyh_test_couplet_001",
        "image": "tobeyqin/pai.build.cu80:my",
        "codeDir": "$PAI_DEFAULT_FS_URI/$PAI_USER_NAME/$PAI_JOB_NAME",
        "dataDir": "$PAI_DEFAULT_FS_URI/Data/$PAI_JOB_NAME",
        "outputDir": "$PAI_DEFAULT_FS_URI/Output/$PAI_JOB_NAME",
        "taskRoles": [
            {
                "name": "test_001",
                "taskNumber": 1,
                "cpuNumber": 2,
                "gpuNumber": 1,
                "memoryMB": 8192,
                "command": "pip3 --quiet install future && cd $PAI_JOB_NAME && chmod +x train.sh && python3 run_samples.py"
            }
        ]
    }
    ~~~

7. 提交任务:

  在配置文件中,单机鼠标右键,选择Submit Job to PAI Cluster,提交任务。

8. 查看状态:

  提交任务后,PAI Client会在右下角提示Open Web Portal,点击可打开OpenPAI的web
  portal,查看任务的运行状态。

![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513103738085-1269212275.png)
![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513103432941-1954413916.png)
9. 完成训练:

  当任务状态变成successed时,即完成训练过程。并且将训练模型结果传回hdfs。在程序中,我们编写的默认传回路径为output/目录下,以JobName命名的文件夹中。

![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513103750612-630758736.png)

10. 下载模型:

   用户可以在PAI CLUSTER EXPLORER下的集群中,双击Open HDFS,打开HDFS explorer。在/Beihang_Couplet/output/目录下,右键单击JobName命名的文件夹,选择Download,下载模型文件。

### OpenPAI使用心得

​	OpenPAI配合VScode客户端使用,操作非常简单便捷,Web UI界面也很简洁明了。在本例中用了两个半小时就完成了对联项目的数据训练,让我体验到了云部署的强大算力的便捷高效。

### 在使用中用到的问题 

​	在进入HDFS EXPlORER后想返回到PAI CLUSTER EXPLORER时要输入命令“EXPLORER: focus on PAI cluster explorer view",感觉比较麻烦(不知道是不是我操作有问题)
![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513102545229-1056823501.png)

![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513102553520-1146062749.png)

![](https://img2018.cnblogs.com/blog/1613934/201905/1613934-20190513102602264-1009361861.png)
posted @ 2019-05-13 10:26  marthio  阅读(420)  评论(0编辑  收藏  举报