模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》

模型
  • 网络
  • 2025-09-05 18:13

当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。

在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。

针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。

LT2025090517571169.001.jpg

《大模型选型说明书》界面预览

能力和场景精准匹配

首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。

LT2025090517571169.002.jpg

语言大模型“能力类别-能力等级-应用场景”关系映射图

典型模型能力等级评定

针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。

LT2025090517571169.003.jpg

典型模型能力评测结果展示

选型使用说明书构建

基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。

LT2025090517571169.004.jpg

“典型模型-能力类别-能力等级-应用场景”关系图谱

应用赋能和迭代更新

《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。

目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。

联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。

来源:网络

作者:

编辑:leilei

图片来源:

本文链接: https://www.aiust.com/article/20250905/1906.html

免责声明:本网站出于传播商业信息之目的进行转载发布,不代表 AIUST.Com 立场。本文所涉文、图、音视频等资料之一切权利和法律责任归提供方所有和承担。本网站对文中的图文等所有信息的真实性不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。本网站的任何内容仅供参考,不能做为投资、采购或行为决策依据,据此操作者风险自担。

相关文章

资讯

原创

荐读

  • 5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势 5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势

    2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中,作为向世界展示智能制造全面能力的窗口,联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤,折叠起来之后的厚度大约为24毫米。当保持半开状态时,可以像拿本书一样握住,并且能同时运行两个应用程序。使用固定在中间的键盘之后,瞬间变...

  • 智能手机竞争中失败,日本在联网汽车领域举步维艰 智能手机竞争中失败,日本在联网汽车领域举步维艰

    据外媒报道,在制造带有数字联网服务的汽车的竞争中,丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是,日本消费者不愿意为这些联网功能和服务买单。结果就是:日本只有10%的汽车...

  • 2020年河南省将推广应用3万台工业机器人 2020年河南省将推广应用3万台工业机器人

    到2020年,推广应用3万台工业机器人,建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日,在2018两岸智能装备制造郑州论坛上,河南省工信委发布了《2017年河南省智能制造白皮书》,河南智能制造的2020...

热门标签