清华大学发布大模型性能报告 :GPT

2023-08-10 21:11:20 来源:砍柴网


【资料图】

来源:IT之家 

近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》(下文简称 " 报告 "),报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。

据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。

IT 之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。

标签:

清华大学发布大模型性能报告 :GPT

2023-08-10

恒富控股(00643)发盈警,预计中期亏损不低于400万港元,同比盈转亏

2023-08-10

袁隆平科研团队再生稻专利技术在四川推广应用

2023-08-10

减少80%的污染物和CO₂排放?钢铁行业该怎么做?

2023-08-10

台风“卡努”向日本九州岛靠近 未来或影响韩国全境

2023-08-10

蔼睦医疗宣布合作伙伴Vistagen的Fasedienol鼻喷剂在治疗社交焦虑障碍的3期临床试验PALISADE-2中取得积极结果

2023-08-10

打又打不过,填岛又没钱,菲律宾对中国的抗议,没有任何意义

2023-08-10

中专自考本科需要什么条件与要求 考试难度大吗

2023-08-10

5588美元,曼哈顿公寓租金创历史新高,较疫情前上涨30%

2023-08-10

美黄金期货实时行情:美债收益率或将下降 黄金反弹无力

2023-08-10

福克斯钥匙换电池后还是打不开锁_福克斯钥匙换电池

2023-08-10

农行汕头分行与汕头市退役军人事务局签署合作协议

2023-08-10

国产“ChatGPT”已超70多家,科大讯飞钟锟:“赛马”将跑出世界级的大模型

2023-08-10

轴流式风机(关于轴流式风机的基本详情介绍)

2023-08-10

【Day15 中高难度算法挑战】不邻接植花

2023-08-10

经开区:开展垃圾分类进万家入户宣传活动

2023-08-10

曹县青堌集镇持续推动优化电商营商环境 助力电商企业发展活动

2023-08-10

一个北方作家,为什么开始写南方?

2023-08-10

首创证券8月10日盘中跌幅达5%

2023-08-10

湖北远安:农旅融合助力乡村振兴

2023-08-10

麦赫米酒庄墨雷圣丹尼干红葡萄酒2014!

2023-08-10

威士顿8月10日快速回调

2023-08-10

尹伟明:梦想终成职业,孩子“飞天梦”不可辜负 | 申城科学教育校外老师“点将录”

2023-08-10

中国两部门紧急预拨10亿元 补偿国家蓄滞洪区民众损失

2023-08-10

15省区将现大到暴雨 吉林等地局部有大暴雨

2023-08-10

“两高”联合发布环境污染犯罪司法解释

2023-08-10

胜利精密(002426):8月9日北向资金减持388.83万股

2023-08-10

肾在哪个位置图(关于肾在哪个位置图的基本详情介绍)

2023-08-10

如何自己编译Linux内核?

2023-08-10

五年级道德与法治上册教学设计 部编五年级语文上册少年中国说教学设计

2023-08-09

Copyright ©  2015-2022 每日频道网版权所有  备案号:浙ICP备2022016517号-15   联系邮箱:5 146 761 13 @qq.com