近年来,大规模预训练模型(以下简称大模型)作为人工智能取得突破性进展的重要驱动力之一,显著加速工程化和普惠化发展进程,有望成为新一代智能基座。中国信息通信研究院(以下简称中国信通院)密切关注国内外相关技术发展态势,高度重视大模型研究、咨询、标准、评估等共性需求,不断夯实软硬件环境、标准规范、测试数据集等基础。为进一步促进我国大模型产业向上向阳发展,中国信通院联合产学研用各方于2022年2月制定可信AI大模型标准体系,并于2023年3月发布大模型标准体系2.0。相关标准为科学评价大模型技术能力和应用效能提供了详尽参考,为全面促进大模型安全合规和可信发展提供了重要保障。
一、面向基础大模型,构建覆盖全能力域的标准体系
自大模型技术兴起以来,参数规模呈现出爆发式增长趋势,模型性能取得显著提升。与传统人工智能算法模型相比,大模型具有开发门槛高、技术能力强、运营要素新、应用服务全等多重特性。为进一步适应当前大模型发展现状和趋势,中国信通院联合产业各方在以“工程化”过程为核心的大模型标准体系1.0基础上,升级并发布以“模型即服务(MaaS)”为核心的可信AI大模型标准体系2.0。可信AI大模型标准体系2.0以“四横一纵”为核心思路,充分结合模型化、能力化、工程化、产业化以及安全可信等“建用管”产业共性需求,从模型开发、模型能力、模型运营、模型应用、安全可信共五个方向持续构建和完善大模型标准体系。可有效助力相关主体快速构建能力全面、应用广泛、运营便捷、安全可信的基础大模型。
第1部分是模型开发,可为企事业单位与高校院所等研发主体开发基础大模型,提供指标及过程参考。该标准包含4个能力域、16个能力子域、60余个能力项,将综合依据功能丰富度、支持完备度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。
第2部分是模型能力,可为技术及产品方提供成体系的主观和客观评价指标,全面测试基础大模型、领域大模型、行业大模型的功能及性能。该标准包含3个评测维度、8个能力域、30余个能力项,将综合依据功能丰富度、性能优越度、服务成熟度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。
第3部分是模型运营,可为技术方交付大模型、应用方运营大模型提供参考,可为平台、工具、套件、插件的构建和选型提供依据。该标准包含数据处理和回流、模型训练与微调、模型压缩与测试、服务部署与托管、平台支撑能力等五个关键维度。
第4部分是模型应用,分别从任务支持度、场景丰富度、行业覆盖度、服务成熟度等维度综合评价大模型的应用效能。该标准包含3个能力域、9个能力子域以及近40个能力项。
第5部分是安全可信,可用以评估数据、模型、应用的安全性,评估结果、过程、机制和规则的可信性,以及评估大模型生态链的自主可控程度。该标准从基础设施、数据、算法、模型、应用等大模型关键层级制定了安全可信的指标要求和评估方法。
二、面向行业大模型,同步启动多项标准的研究制定
近期,BloombergGPT、MedGPT等面向垂直领域及具体场景的行业大模型不断涌现,有望成为各行各业前端应用场景的技术底座。行业大模型通过对基础大模型进行特定领域数据的训练和调优,具备满足行业特定需求的领域专业性和场景适配性,企业可以更便捷地形成与自身行业更为匹配的能力中台,成为促进大模型深入产业的重要举措。
2023年4月,中国信通院正式启动了《面向行业的大规模预训练模型技术和应用评估方法》系列标准研制工作,并率先开展金融行业大模型标准编制。5月23日,中国信通院召开金融大模型标准研讨会,并对《面向行业的大规模预训练模型技术和应用评估方法 第1部分:金融大模型》标准文稿公开征求意见。近期,中国信通院将进一步完善行业大模型标准体系,先后启动电信、教育、法律、电力、汽车、传媒、政务等行业大模型标准的编制工作。通过构建技术能力、应用能力、服务能力三位一体的评价体系,助力产业各方全面评估行业大模型的技术和应用能力,以进一步促进大模型的产业化进程,加速大模型与行业应用融合。
来源:可信AI评测