SuperCLUE工业大模型基准评测出炉! 创新奇智位列国内第1
日前,SuperCLUE发布首个中文原生的工业大模型测评基准(SC-Industry)。创新奇智工业大模型(奇智孔明AInno-15B-1128)位列国内第1和卓越领导者象限,总分65.2。


图片来源:SuperCLUE
工业场景的特殊性对大模型的性能提出了更高的要求。工业数据往往包含大量专业术语、参数和标准,通用模型难以完全覆盖。此外,工业应用对模型的分析推理能力、知识化表示能力等也有独特的要求。在此背景下,SuperCLUE推出SC-Industry工业大模型测评基准,旨在从基础能力和应用能力两大维度,通过六大能力对大模型进行效果评估,并加入了智能体Agent能力的测评。设计结合国际标准和中文特需,推动工业大模型技术进步与创新。
SuperCLUE对12个国内外代表性大模型进行了测评,结论分析如下:
1. 国际大模型表现依然突出:GPT4-Turbo-0125作为目前国际领先的大模型,在中文工业测评中总分74.8分,高于其他国内外模型,并且在各项子能力上均有较大优势。
2. 在中文工业场景中国内模型很有竞争力:可以看到本次上榜的国内模型在工业基础能力和应用能力上均表现不俗,如国内最高分的奇智孔明AInno-15B-1128。
3. 国内小模型在工业场景中表现不俗:奇智孔明AInno-15B-1128, qwen1.5-14b-chat, Baichuan2-13B-Chat均为200亿以内参数量级模型,在工业测评中均有超过60分的表现,可见在工业具体落实场景中“小模型"可能是一个不错选择。
4. 在高难度任务上国内模型有较大优化空间:难度较高的任务国内外最好模型具有较大区分度,如【工业理解计算】、【工业代码生成】、【工业数据分析】任务上,国内模型依然有较大优化空间。
SuperCLUE工业大模型基准评测出炉! 创新奇智位列国内第1
日前,SuperCLUE发布首个中文原生的工业大模型测评基准(SC-Industry)。创新奇智工业大模型(奇智孔明AInno-15B-1128)位列国内第1和卓越领导者象限,总分65.2。


图片来源:SuperCLUE
工业场景的特殊性对大模型的性能提出了更高的要求。工业数据往往包含大量专业术语、参数和标准,通用模型难以完全覆盖。此外,工业应用对模型的分析推理能力、知识化表示能力等也有独特的要求。在此背景下,SuperCLUE推出SC-Industry工业大模型测评基准,旨在从基础能力和应用能力两大维度,通过六大能力对大模型进行效果评估,并加入了智能体Agent能力的测评。设计结合国际标准和中文特需,推动工业大模型技术进步与创新。
SuperCLUE对12个国内外代表性大模型进行了测评,结论分析如下:
1. 国际大模型表现依然突出:GPT4-Turbo-0125作为目前国际领先的大模型,在中文工业测评中总分74.8分,高于其他国内外模型,并且在各项子能力上均有较大优势。
2. 在中文工业场景中国内模型很有竞争力:可以看到本次上榜的国内模型在工业基础能力和应用能力上均表现不俗,如国内最高分的奇智孔明AInno-15B-1128。
3. 国内小模型在工业场景中表现不俗:奇智孔明AInno-15B-1128, qwen1.5-14b-chat, Baichuan2-13B-Chat均为200亿以内参数量级模型,在工业测评中均有超过60分的表现,可见在工业具体落实场景中“小模型"可能是一个不错选择。
4. 在高难度任务上国内模型有较大优化空间:难度较高的任务国内外最好模型具有较大区分度,如【工业理解计算】、【工业代码生成】、【工业数据分析】任务上,国内模型依然有较大优化空间。