清华大学发布大模型性能报告：GPT_每日频道网

首页 > 热点 > 内容页

清华大学发布大模型性能报告：GPT

2023-08-10 21:11:20 来源：砍柴网

【资料图】

来源：IT之家

近日，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》（下文简称 " 报告 "），报告显示总得分率 GPT-4 第一，百度文心一言在三大维度 20 项指标中综合评分国内第一，超越 ChatGPT，其中中文语义理解排名第一，部分中文能力超越 GPT-4。

据了解，报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型，围绕生成质量、使用与性能、安全与合规三大维度，全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看，文心一言语义理解能力突出，特别是具备更好的中文理解能力，更懂中国文化，同时时效性强、内容安全把握细微，这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面，基于对语义理解、输出表达、适应泛化的综合评测，文心一言得分率 76.98%，仅次于 GPT-4，领先于包括 ChatGPT 在内的其他大语言模型。其中，在部分中文语义理解方面，文心一言以 92% 的得分率排名榜首。

IT 之家注意到，在安全合规方面，基于对内容安全性、偏见和公平性、隐私保护等综合评测，文心一言得分率 78.18%，与 GPT-4 并列排名第一。

标签：

最近更新

清华大学发布大模型性能报告：GPT

恒富控股(00643)发盈警，预计中期亏损不低于400万港元，同比盈转亏

袁隆平科研团队再生稻专利技术在四川推广应用

减少80%的污染物和CO₂排放？钢铁行业该怎么做？

台风“卡努”向日本九州岛靠近未来或影响韩国全境

蔼睦医疗宣布合作伙伴Vistagen的Fasedienol鼻喷剂在治疗社交焦虑障碍的3期临床试验PALISADE-2中取得积极结果

打又打不过，填岛又没钱，菲律宾对中国的抗议，没有任何意义

中专自考本科需要什么条件与要求考试难度大吗

5588美元，曼哈顿公寓租金创历史新高，较疫情前上涨30%

美黄金期货实时行情：美债收益率或将下降黄金反弹无力

福克斯钥匙换电池后还是打不开锁_福克斯钥匙换电池

农行汕头分行与汕头市退役军人事务局签署合作协议

国产“ChatGPT”已超70多家，科大讯飞钟锟：“赛马”将跑出世界级的大模型

轴流式风机（关于轴流式风机的基本详情介绍）

【Day15 中高难度算法挑战】不邻接植花

经开区：开展垃圾分类进万家入户宣传活动

曹县青堌集镇持续推动优化电商营商环境助力电商企业发展活动

一个北方作家，为什么开始写南方？

首创证券8月10日盘中跌幅达5%

湖北远安：农旅融合助力乡村振兴

麦赫米酒庄墨雷圣丹尼干红葡萄酒2014！

威士顿8月10日快速回调

尹伟明：梦想终成职业，孩子“飞天梦”不可辜负 | 申城科学教育校外老师“点将录”

中国两部门紧急预拨10亿元补偿国家蓄滞洪区民众损失

15省区将现大到暴雨吉林等地局部有大暴雨

“两高”联合发布环境污染犯罪司法解释

胜利精密（002426）：8月9日北向资金减持388.83万股

肾在哪个位置图（关于肾在哪个位置图的基本详情介绍）

如何自己编译Linux内核？

五年级道德与法治上册教学设计部编五年级语文上册少年中国说教学设计

x 广告

资讯

千年一遇！汤加火山喷发影响范围超半个地球

送别著名血液病学专家周剑峰

农生文：发挥广西比较优势服务中国—东盟命运共同体建设

清明假期小客车免费通行，这份出行攻略请查收！

x 广告

热点

千年一遇！汤加火山喷发影响范围超半个地球

疫情之下，生命至上——“疫”线医护工作者扫描

焦点访谈：老有所乐新生活

深山老林中竟藏赌场云南德宏警方打掉一赌博团伙

四川乐山犍为县一地调整为中风险地区

Copyright © 2015-2022 每日频道网版权所有备案号：浙ICP备2022016517号-15 联系邮箱：5 146 761 13 @qq.com