在2024中國移動全球合作伙伴大會上,中國移動攜手電子標(biāo)準(zhǔn)院及16家重點央企,共同推進(jìn)大模型評測體系建設(shè),并發(fā)布了《通用大模型評測標(biāo)準(zhǔn)》。這一標(biāo)準(zhǔn)被視為評測體系建設(shè)的重要里程碑,旨在為產(chǎn)業(yè)界篩選優(yōu)質(zhì)大模型提供有力參考。
據(jù)透露,該標(biāo)準(zhǔn)的建設(shè)工作將圍繞通用領(lǐng)域及四個重點行業(yè)領(lǐng)域展開,涵蓋評測標(biāo)準(zhǔn)制定、評測基地建設(shè)、評測試點應(yīng)用等多個方面。通用大模型評測標(biāo)準(zhǔn)基于“2-4-6”框架構(gòu)建,具體而言,“2”代表兩類評測視角,即以重點行業(yè)實際需求為導(dǎo)向,與國家標(biāo)準(zhǔn)對模型能力的要求相協(xié)調(diào),將評測任務(wù)分為理解和生成兩大視角;“4”表示四類評測要素,從評測全生命周期中提取評測工具、評測數(shù)據(jù)、評測方式和評測指標(biāo)等關(guān)鍵要素,確保評測工作的可實施性;“6”則指六大評測維度,綜合考慮大模型應(yīng)用過程中的核心能力,包括功能性、準(zhǔn)確性、可靠性、安全性、交互性和應(yīng)用性。