北鲲云超算携手西安电子科技大学开展高性能计算培训
近日,北鲲云携手西安电子科技大学(以下简称西电)举办了高性能计算平台实操线上培训,吸引了人工智能、电子信息、生物医学工程、计算数学等多个专业的师生参与。这也是北鲲云超算平台首次进入高校进行培训讲解。
此次培训讲座由北鲲云高级工程师陈仕鑫主讲,通过理论+实操的方式详细讲解了如何使用北鲲云超算平台,其中包括可视化提交、工作站提交、以及命令行提交作业。
可视化提交作业只需要选择软件,再选择适合的作业模板。
然后进入设置软件,并在此处上传作业的输入文件,并填写相应的参数。用户可以根据自己的需要决定是否选择使用案例模板,模板中已经预置了输入文件和参数,可以直接运行。
点击下一步,进入硬件设置。北鲲云超算平台提供丰富的CPU和GPU計算資源,用户可以根據需求选择相應的资源类型,并输入對應的資源数量。页面右侧将展示所选资源的核时或卡时的费用信息。接着,预览作业配置,并填写作业名称。确认无误后即可提交。
提交后,作业将经过校验、创建集群等流程,最后进入执行状态。作業執行過程中,用户可以在界面上及时查看输入、日志、结果和日志文件,也可以連接到節點上查看進程狀態。
图形界面分为工作站和图形应用。
工作站包含Windows和Linux工作站,在界面上选择用户需要的操作系統,比如Linux工作站,再选择硬件配置后点击确定。当系统为用户创建好节点后,用户可以连接到節點并在上面安装软件或提交作业。
图形应用为Linux桌面,启动流程和工作站类似。
当用户连接到节点后,将自动加载对应的软件。用户可以使用计算软件来提交作业,或使用可视化软件浏览计算结果。
当用户在工作站提交作业之后,建议在设置中进行作业结束配置。系统将根据你设置的条件判断作业是否完成,满足条件后会及时通知用户作业计算完成或自动释放当前的节点。接收通知的方式请前往用户中心-通知设置中进行查看。
命令行操作,北鲲云超算平台技术支持建议用户使用Linux管理节点提交作业。
首先,启动管理节点。管理节点配置为2核4G。用户可以在节点上调用软件、编写脚本和提交作业。
啓動成功後即可連接到節點上。
平台预装了300多种软件,用户可以输入module avail 查看已经安装好的软件,如果用户在计算中需要使用某个软件,可以在作业的脚本中通过module add再加软件的名字就可以自动加载这个软件。我们在这里演示如何加载Anaconda。这样用户就加载上Anaconda了
本平台使用slurm进行作业调度。提交作业前,用户可以通过sinfo查看可选的队列,每个队列对应一种硬件规格,如c-4-1表示4核、每核1G内存的cpu计算节点。g-v100-1表示v100单卡的gpu计算节点。
提交作业时,通过-p参数来指定这个作业想使用哪个队列,系统将为用户动态创建集群并执行作业。
提交後用户可以通过squeue命令及时查看作业的执行状态。启动计算节点大概需要1分钟的时间。可以看到作业已经在运行状态中了。用户可以通过sacct命令来查看历史作业。可以看到刚刚提交的作业已经执行完成了。用户也可以通过通知设置,在作业结束或异常时自动接收通知。
未来,北鲲云将和更多的高校及及科研所展开更多的合作,从产品咨询、技术支持、技术培训、人才服务等各个方面,为高性能计算用户提供更高效、更便捷的云端高性能计算服务和解决方案,满足广大科研人员日益增长的科研计算需求,助力国内科研发展。