AI是目前互联网行业的“顶流”,无论老牌巨头还是流量新贵,都在大力研发AI技术,为业务赋能。然而,要将机器学习/人工智能技术在实际工业应用中持续高效地使用,并推广到更多的场景,仍然有很高的门槛。不仅需要数据科学家快速研发新模型,算法工程师应用新模型,还需要软件工程师和运维工程师来建设机器学习能力平台。在应用机器学习的企业和团队中,建设机器学习平台是重要的一环。
关于AI平台
AI模型训练平台,基于核心模块和应用场景不同,又可以称作深度学习平台、机器学习平台、人工智能平台。用户在AI平台能够使用不同的机器学习框架进行大规模的训练,对数据集和模型进行管理和迭代,同时通过API和本地部署等方式接入到具体业务场景中使用。
简单理解,AI平台=AI FAAS+(PAAS)+(IAAS)。
业界比较优秀的机器学习平台有很多,如微软的Azure、Amazon的AWS Machine Learning、阿里的PAI平台、百度的Paddle以及腾讯的TI平台。一般的平台产品基于基础的机器学习和深度学习计算框架进行二次开发,提供一站式的生态化的服务,为用户提供从模型训练、模型评估、模型在线预测的全流程开发和部署支持,以期降低算法同学在工程化时的使用门槛。
为什么要做AI平台
最初进行AI基建和大数据落地的公司和部门,都会遇到机器学习门槛高、落地慢、实施周期长等问题。结合日常工作流程中碰到的问题,我们提供了一系列的解决方案,以解决模型落地上的一系列难题。
AI平台的产品架构
根据企业不同的规模、资源和业务场景,AI平台往往有不一样的定位。例如AI和数据可同为一个中台、AI平台可视为业务中台一部分、AI平台整合进技术中台或后台等。规模较小、资源有限的企业通常会选择使用第三方AI平台对业务进行服务,而非自建AI平台。由于我们当前已有数据中台,因此我们的AI平台更多承担的是作为业务前台的模型算法供给角色,在数据中台的支持下,起到承载业务,对接数据和技术底层的作用。
目前比较主流的AI平台有两种产品形态,一种是趋向AutoML,主要为非算法专家提供的可视化训练平台,通过拖拽、拉取等方式完成模型设计和训练中的组件排布,完成模型构建,如Azure;一种是为专业人士提供的模型设计和训练工具,将模型训练和管理通过工程化平台进行集成管理。也有集成两种方式的AI平台,如阿里的PAI,为各种层次的人工智能工作和爱好者提供不同专业程度的工具。
基于我司目前对AI平台能够快速解决问题提高能效这一定位,我们优先选择为专业的算法专家和模型运维工程师提供针对模型生命周期管理的解决方案。
我们提供了一套从模型管理、模型训练到模型部署、模型监控的模型全生命周期解决方案,不仅帮助算法专家解决训练环境、训练过程中的保存管理问题,也帮助他们解决在模型部署和上线时的各种问题,并提供了线上部署模型的监控服务。
我们为模型训练提供了多套WorkSpace(工作区)容器。一个WorkSpace中包括多种模型开发时的工具,包括Jupyter、一些常用的IDE和一个终端界面。一个模型从准备到训练结束,产出代码均可以在工作区内直接完成,在工作区内可安装各种依赖、尝试各种方法,甚至提交代码至Git,直至算法工程师获得一个满意的模型。
针对模型的部署,我们引入了一个流水线的概念,模型的一条发布流水线只有4个步骤,一般发布一个模型不超过5分钟。
针对一些无需在实时场景下执行、或无法在实时调用场景下执行的耗时较久的模型,我们提供了发布为Job任务的部署方式,用户通过Job任务可以进行一些回溯任务的执行或者训练数据的更新,非常灵活。
模型的代码和内部逻辑将作为一个黑盒,被打包为一个docker镜像,因此模型无论以何种方式发布,发布在什么环境内,都是绝对安全可靠的。
通过一些管理模块和实际的服务模块,用户能够完成一个AI项目的管理和API、Job、镜像APP等上层应用的产出,整个过程无需任何运维人员、工程人员的干预,算法工程师就能搞定。
AI平台部分展示
1. 模型API发布管理,提供流水线式模型部署流程,成功发布一个API不超过5分钟。
2. 模型Job任务发布,提供即时部署发布,成功发布一个Job不超过3分钟。
3. 用户资产管理,快速查看用户名下的项目和应用。
4. 计算环境管理。提供超过500个计算环境,包括主流的机器学习和深度学习框架。通过环境共享化社区,不断丰富计算环境集群,提升资源复用性。
成果与展望
目前AI平台已经能够支持公司所有科技服务,覆盖多个业务场景,同时支持多家外部合作伙伴。未来我们会在以下方面继续深入探索:
1. 增强模型评估功能,进一步优化模型迭代和算法RD;
2. AB实验平台,在线预测平台化;
3. 支持分布式训练和更多训练功能。
本文来自信也科技拍黑米,经授权后发布,本文观点不代表信也智慧金融研究院立场,转载请联系原作者。