上海财经大学人工智能案例平台

人工智能平台

为AI团队提供模型开发、模型训练、数据管理、代码管理、团队协作功能。预置常用开发工具(JuypterLab)、可连接代码仓库、支持分布式训练。

登录上财教学网https://bb.sufe.edu.cn,选择“算力与实验”--“人工智能平台”进入平台

人工智能平台地址:https://ai.sufe.edu.cn

案例库基于上海财经大学人工智能平台构建

平台详细介绍

为了解决低效的算力资源利用导致资源浪费严重,以及AI实验教学和科研项目资源调配困难等问题,我们建设了校级人工智能平台。

平台的架构图:

  • 能够以有限的资源为更多的师生提供实训使用的机会。其资源的动态调整功能可根据需求实现灵活分配,充分满足各科研组对AI模型训练的计算需求,从而极大地释放了科研组的生产力。此外,统一管理平台极大地简化了部署管理工作,让师生能够更加专注于自己的研究和工作。

  • 整合算法、算力、数据,构建一体化平台。为AI算法实训、研发、训练、资源管理等,构建一体化AI研发训练平台,通过整合数据、镜像和代码模块,为师生提供了方便的模型开发和训练环境。同时,也为系统管理人员提供了AI集群运维管理、数据治理和多级账户权限管理的能力。在AI应用中,模型设计和算法精度是决定应用价值的核心关键。然而,许多企业和开发者往往将大部分时间和精力投入在平台搭建、系统调试、团队磨合和监控运维等“非核心”工作上。

  • 平台支持多种AI模型开发调试工具,包括深度整合算法开发环境的JupyterLab、网页终端和ssh登录等。同时,我们也支持VSCode、PyCharm等SSH工具连接到开发环境进行调试,保持原有的开发习惯,实现代码快速验证和调试。此外,我们还为师生提供了丰富的资源监控功能,可以查看开发环境和离线训练资源的使用情况。监控内容包括CPU、内存、虚拟GPU平均利用率、虚拟GPU平均显存、存储读写和网络I/O等。这些资源监控指标帮助师生和管理者快速了解平台状态。

  • 统一的AI弹性算力资源高效满足科研和教学不同场景的算力需求平台对物理GPU资源进行了细粒度的切分,从算力和显存两个维度进行虚拟GPU的分配。这样,我们可以将有限的GPU资源以最精细的方式分配给多位师生使用,确保资源利用效率最大化,避免了传统方式中资源浪费的问题。此外,我们的平台还具备秒级资源动态分配与回收功能,使得GPU资源的分配和回收可以随时根据实际需求进行调整。这种弹性伸缩功能使得GPU资源可以根据实际需求进行动态调整,进一步提高了资源利用效率。

  • 平台还支持将多台服务器的GPU资源进行聚合,为需要大量计算力的场景提供支持。比如在AI训练中,通过将多台服务器上的GPU资源进行聚合,可以轻松满足大规模AI训练的需求,加速了科研工作的进度。

联系:实验中心平台运维部 huangjie@sufe.edu.cn

Copyright © 实验中心 2025            该文件修订时间: 2025-01-07 08:15:16

results matching ""

    No results matching ""