新华社研究院发布《人工智能大模型体验报告2.0》，一探国内智能模型到底哪家强？

2023-08-16 11:52:49 · 客户观察 · 新华社研究院

8月12日，新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》（以下简称报告），《报告》显示，讯飞星火以总分1013分位列本次调研榜首，此外，百度文心一言、商汤商量和智谱AI-ChatGLM等均表现抢眼。《报告》认为，当前中国大模型产品进步显著，AI大模型的发展为人类工作和生活的提质增效均带来了正向积极的影响。

今年以来，伴随着OpenAI发布ChatGPT，掀起了新一轮的生成式AI热潮，国内科技企业纷纷布局人工智能大模型。据不完全统计，目前国内已经出现了上百个大模型。

为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点，新华社研究院中国企业发展研究中心于今年7月启动了本次报告研究。与2023年6月首次发布的《人工智能大模型体验报告》相比，本次测评在题目设计、对标Benchmark（人类）、打分权重、专家测评团队四大维度进行了全面升级。

《报告》显示，与2023年6月相比，当前中国大模型产品进步显著。但与接受过高等教育的人类相比，大模型在智商、情商等方面还存在一定程度差距。具体来看，科大讯飞的星火在工作提效方面优势明显；百度文心一言地基深厚、基础能力仍处领军水准；商汤商量则在情商方面表现优秀；智谱AI的ChatGLM整体表现优秀。针对各维度能力测评，该报告还给出了相应的案例展示和分析。

本次测评引入Benchmark结果对比更加明确。首先，在基础能力方面，人类与AI之间的差距并不显著。这是因为AI算法模型的开发受到人类编程思维的影响，并且在其开发过程中充分利用了人类的智慧和知识。值得关注的是，大模型的安全可解释性需要持续投入，避免不受控制的现象出现。但由于人类的智商更表现在善用工具和解决问题的能力上，所以更容易形成个人知识体系，从而获得更好的表现。

其次，在情商方面，AI与人类之间的差距最为明显。目前尚未观察到AI具备情绪感知能力的明显迹象。相比之下，人类在情绪理解和处理方面通常具有更强的优势和更灵活的处理能力。在某些复杂和具有创新性的任务中，人类的智慧和想象力仍然具有无法替代的作用。

在基础能力部分，百度文心一言表现最为抢眼；商汤商量、智谱AI ChatGLM、360智脑表现优良；讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工表现尚佳。大模型的基础能力包括多个方面，其中最重要的是语言能力。语言是人类智慧的体现，也是人工智能系统需要理解和模仿的重要领域。大模型通过学习和训练，可以理解和生成自然语言文本，并且可以进行多语言翻译和多语言对话。这些语言能力可以帮助大模型在自然语言处理、人机交互、智能客服等领域发挥重要作用。

在智商部分，讯飞星火、智谱AI-ChatGLM并列第一；百度文心一言、昆仑万维天工表现优良；商汤商量、360智脑、阿里通义千问、澜舟科技MChat表现尚佳。课题组认为，大模型的智商考察可以从三个方面进行评估，包括常识知识、逻辑能力和专业知识。

情商部分，商汤商量、百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM表现优良；360智脑、讯飞星火、阿里通义千问、昆仑万维天工表现尚佳。大模型的情商考察是指对其在情感和人际交往方面的表现进行评估，其中包括日常尴尬事项的反馈、面对一语双关问题的处理以及人际关系相处难题等方面，包括与朋友、家人、同事等在各种场景下的交往问题。

在工作提效部分，讯飞星火、百度文心一言、商汤商量、智谱AI-ChatGLM表现优良；昆仑万维天工、阿里通义千问、澜舟科技Mchat、360智脑表现尚佳。大模型的工作提效考察通常包括两个方面：工具和创新。

报告认为，虽然在不同领域中，AI和人类表现出不同的优劣势，但在整体上，AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响。面向未来，各大厂商应更好地发挥各自优势，头部企业应该通过开放平台等方式对外赋能，促进大模型技术的共享和创新，加速其落地和推广，承担起技术发展的社会责任。大模型+行业的发展将发挥越来越重要的作用，未来通过新一代AI能够打造其独特的竞争优势。只有通过各方的共同努力和合作，才能够推动中国大模型技术的应用落地，最终实现人工智能产业的快速发展和跨越式进步。

注：文内图片均来自《人工智能大模型体验报告2.0》

大模型

阅读全文

新华社研究院发布《人工智能大模型体验报告2.0》，一探国内智能模型到底哪家强？