【AI产品经理】第十一篇-AI中台设计(四)
admin
2023-09-24 16:21:00
0

本篇主要介绍“模型中心”模块,模型中心是AI模型的集中管理场所,提供多来源、多类型、多框架模型的纳管功能,支持将模型部署至云端和边缘环境,并支持对模型进行压缩。



模型中心分为“模型管理”和“模型压缩”两部分。“模型管理”可存储单个模型的多版本信息,包括版本号、模型来源、模型状态、模型类型、模型框架、网络结构/算法类型等,便于对多版本模型进行比较,以决定需采用的具体模型。“模型压缩”可在不降低效果或降低可承受效果的情况下大幅压缩模型复杂度,提升模型性能,增加同等计算资源下预测推理服务的吞吐量

“模型管理”支持本平台训练模型和第三方模型。根据不同的模型类型、框架和网络结构(或算法类型),提供不同的功能,包括模型文件纳管、云部署、边缘部署、离线部署和模型压缩。

本平台:支持在模型中心纳管平台训练的全部模型,并支持进行云部署(即发布为预测服务)。支持的模型大类包括:Notebook、可视化建模、自动化建模等。

第三方模型:支持以模型文件形式导入的模型,支持深度学习模型框架或格式:TensorFlow/PaddlePaddle/PyTorch/Caffe/Darknet/MXNet/ONNX,支持机器学习模型框架或格式:Sklearn/XGBoost/R/MOJO/POJO/PMML


第三方模型导入步骤:

1.模型文件构建:进入“模型中心 > 模型管理“页面,点击“导入模型”,弹出导入页面。



2.进行基本信息和模型的相关配置






3.进行模型参数配置,设置输入参数、输出参数和转换参数。



4.进入“配置导入资源”页面,选择可用的资源池。



5.点击“导入”,系统校验模型包内容及模型框架类型。若通过,模型状态将变为“已完成”,则模型导入成功。


“模型压缩”通过降低模型复杂度,可在不降低模型效果或小幅降低模型效果的情况下提升模型性能,实现模型预测推理速度提升,或使模型运行在算力更低的设备上。目前支持对TensorFlow模型进行压缩,支持的压缩方式为量化压缩,压缩精度可选INT8/FP16/FP32。其中INT8的精度最低,FP32的精度最高。精度越低,对应的模型性能最优,即在同等算力情况下预测推理速度越快,但预测推准确度下降越多。反之同理。

1.进入“模型中心 > 模型压缩“菜单,点击“新建压缩任务”。



2.设置压缩参数。



3.模型压缩成功后,会生成模型新版本。进入“模型管理 “页面,选择相应的模型,查看新增的版本。其模型来源为“压缩/量化”。



相关内容