新华社研究院发布《人工智能大模型体验报告2.0》,一探国内智能模型到底哪家强?
8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称报告),《报告》显示,讯飞星火以总分1013分位列本次调研榜首,此外,百度文心一言、商汤商量和智谱AI-ChatGLM等均表现抢眼。《报告》认为,当前中国大模型产品进步显著,AI大模型的发展为人类工作和生活的提质增效均带来了正向积极的影响。
今年以来,伴随着OpenAI发布ChatGPT,掀起了新一轮的生成式AI热潮,国内科技企业纷纷布局人工智能大模型。据不完全统计,目前国内已经出现了上百个大模型。
为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年7月启动了本次报告研究。与2023年6月首次发布的《人工智能大模型体验报告》相比,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。
《报告》显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,科大讯飞的星火在工作提效方面优势明显;百度文心一言地基深厚、基础能力仍处领军水准;商汤商量则在情商方面表现优秀;智谱AI的ChatGLM整体表现优秀。针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,百度文心一言表现最为抢眼;商汤商量、智谱AI ChatGLM、360智脑表现优良;讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工表现尚佳。大模型的基础能力包括多个方面,其中最重要的是语言能力。语言是人类智慧的体现,也是人工智能系统需要理解和模仿的重要领域。大模型通过学习和训练,可以理解和生成自然语言文本,并且可以进行多语言翻译和多语言对话。这些语言能力可以帮助大模型在自然语言处理、人机交互、智能客服等领域发挥重要作用。
在工作提效部分,讯飞星火、百度文心一言、商汤商量、智谱AI-ChatGLM表现优良;昆仑万维天工、阿里通义千问、澜舟科技Mchat、360智脑表现尚佳。大模型的工作提效考察通常包括两个方面:工具和创新。
报告认为,虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响。面向未来,各大厂商应更好地发挥各自优势,头部企业应该通过开放平台等方式对外赋能,促进大模型技术的共享和创新,加速其落地和推广,承担起技术发展的社会责任。大模型+行业的发展将发挥越来越重要的作用,未来通过新一代AI能够打造其独特的竞争优势。只有通过各方的共同努力和合作,才能够推动中国大模型技术的应用落地,最终实现人工智能产业的快速发展和跨越式进步。
请先 登录后发表评论 ~