AI前哨 | 中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一

OpenAI发布Shap-E模型 支持让文本或图像转换成3D对象

凤凰网科技讯 《AI前哨》 5月9日消息,今日,中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。

据介绍,SuperCLUE主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

与此同时,SuperCLUE评测榜单也同步公开。该榜单测试了国内外9个模型,分别为GPT4、GPT3.5-turbo、讯飞星火认知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型还与人类进行了对比。

榜单显示,从人类测评角度看,基础能力(98%)+中文特性(95%),都达到了非常高的水平。除GPT-4外,人类准确率大幅超过了其他的大模型(如在基础能力上超过其他模型20多个百分点)。AI虽然进展很快,但人类还是有相对优势的, 比如在计算方面,人类比最强模型GPT-4高出了30个百分点。

AI浪潮涌动,普通人的冲浪板在何处?

目前,国际先进模型效果具有较大的领先性,而同时国产GPT模型也有不俗的表现。

榜单中,表现最好的国内大模为讯飞星火认知大模型,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。在语义理解方面,讯飞星火认知大模型得分100分,超过GPT-4。百度文心一言在榜单中排名最后一名,得分32.61分。

AI前哨 | 中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一

据悉,SuperCLUE从基础能力、专业能力和中文特性能力三个不同的维度评价大模型。其中,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

值得注意的是,SuperCLUE标明了评测基准的不足和局限,包括中文特性能力总数据量比较少,以及选取的模型较少。

(责任编辑:刘静 HZ010)

与AI争夺未来:好莱坞编剧首次罢工 直称人工智能是剽窃机器

,

UZAPP开发移动app商城开发app定制开发小程序开发软件手机app开发公司原创文章,作者:开发移动APP软件,如若转载,请注明出处:https://www.uzapp.com/app/75062.html