开放工程联盟MLCommons公布两个最新的基准测试套件MLPerf Inference v3.1和MLPerf Storage v0.5,MLPerf Inference又分为边缘与资料中心,用於测量系统使用经过训练的模型,处理输入和生成结果的速度,而MLPerf Storage则可以衡量在训练模型时,储存系统提供训练资料的速度。
基准测试对於发展人工智慧与机器学习技术至关重要,基准测试可以提供标准化环境,供研究人员公平地比较不同的演算法和系统效能,由於基准测试除了资料集之外,还包含评估指标,因此所有研究者都可以使用相同的标准,使结果更具比较性。也就是说,基准测试能够提供一个客观、量化且可重复的方法,用於评估人工智慧与机器学习技术的效能,促进该领域健康发展。
目前生成式人工智慧聊天机器人、自动车辆的安全功能,或是语音转文字介面等,都离不开机器学习推论,而MLPerf Inference则可衡量各种场景执行模型的速度。MLPerf Inference v3.1具有新的大型语言模型(Large Language Model,LLM)与推荐基准测试,大型语言模型的测试是以GPT-J参考模型总结CNN新闻文章,推荐基准测试则更新推荐器,使用DLRM-DCNv2参考模型与更大的资料集,以更贴近产业实践。
MLPerf Inference主要关注边缘和资料中心系统的模型推论,针对v3.1版本的提交呈现了多种处理器、加速器,在电脑视觉、推荐系统和语言处理等领域的应用表现,资料提交又分为开放和封闭两类,并且有效能、功率和网路三大类别。封闭类使用相同的参考模型,确保不同系统表现的公平性,而开放提交则允许参与者使用各种不同的模型。目前MLPerf Inference已有26个提交者,MLCommons总共收到13,500个效能结果提交,以及2,000个功率结果。
而MLPerf Storage则是目前第一个,用於测量机器学习训练工作负载储存效能的开源人工智慧与机器学习基准套件,由於训练神经网路是运算密集,同时也是资料密集的任务,因此高效能储存系统能够维持整体系统的效能和可用性。
官方提到,MLPerf Storage基准由超过10个业界和学术组织合作创建,具有像是平行档案系统、本地储存和软体定义储存等各种储存配置。MLPerf Storage或将成为购买、配置和最佳化机器学习应用程式储存的评估工具。