七款AI大模型“高考成绩” 前三名文科过一本
IT之家7月18日消息,上海人工智能实验室17日公布了针对7个AI大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织AI大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”
测试结果显示,书生・浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o再次包揽文、理科前三甲;前三名AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。
从官方提供的图片来看,此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的GLM-4-9B 和法国 AI 初创公司Mistral旗下的Mixtral 8×22B。
据介绍,此次评测具备如下特征:
全卷考试:进行全卷评分,而不只针对单一题型,且包括带图的高考题
考前开源:评测覆盖的开源模型均为今年高考前开源的模型,排除泄题的可能性
老师打分:邀请有高考阅卷经验的老师打分,确保评分和高考尽量一致
完全公开:生成答案的代码、模型答卷、评分结果完全开源
在增加综合科目的基础上,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”,浦语文曲星则以 468.5分成为理科第一名,分别超过了“非开源国际插班生”GPT-4o(文科531分,理科467分)。同为国外机构发布的Mixtral8x22B平均得分最少,弱于国内大模型的高考表现。
阅卷老师们一致认为,大模型与真人考生仍存在差距,虽然对于基础知识的掌握表现出色,但在逻辑推理和知识灵活应用方面,大模型仍然差强人意。具体而言,在作答主观题时,大模型往往无法完整理解题干,不明白代词指向,结果导致答非所问;解答数学题时,解题过程机械且逻辑性差,对于几何题,常出现与空间逻辑相违背的推断;对物理、化学实验理解肤浅,无法准确识别并运用实验器材。
此外,大模型也会伪造虚构内容,编造看似合理但实际不存在的诗句,或在存在明显计算错误的情况下之后不反思,“硬着头皮蒙”一个答案,均给阅卷老师带来了困扰。
根据上海人工智能实验室上个月公布的AI高考全卷结果,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。
声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:daokedao3713@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
相关推荐
-
回合制策略角色扮演游戏《毁灭之王:战斗卡牌》序章现已免费推出 获得好评
回合制策略角色扮演游戏《毁灭之王:战斗卡牌》序章现已免费推出 获得好评由Synthetic Domain进行开发、101XP负责发行的回合制策略角色扮演游戏《毁灭之王》序章《战斗卡牌(Lords of Ravage: Dread Knigh
-
《完美音浪》成为微软和B社有史以来评价最高的游戏
之前微软Xbox宣布关闭Tango Gameworks工作室,让玩家彻底愤怒。为了表达对《完美音浪》的热爱,人们纷纷到Steam上为这款游戏打出好评。近日游戏资讯推主HazzadorGamin发文称:“在Tango Gameworks工作室
-
G胖讨论游戏延期:推迟是暂时的 但烂作是永久的
网上一直有人会应用据称是任天堂传奇制作人宫本茂的一句名言:“延迟的游戏最终会是好游戏,但是赶工的游戏永远都会是坏的。”但这句话事实上并非是宫本茂所说。不过,Valve 的老大 GabeNewell 显然同意这一观点。考虑到G胖可以说是游戏延
-
《碧蓝档案》 【预告】特殊作战:神名十文字篇
何为绝对自主自律分析系统“神名十文字”?和【超自然现象调查部】一起探索神名十文字的秘密吧!■ 活动简介。• “特殊作战:神名十文字篇”是一种限时活动,活动主要由“每日/成就任务”、“剧情故事”和“故事/任务关卡”等要素构成。• 活动期间,完
-
更多冷饭!卡普空希望将更多经典格斗游戏移植到现代平台
近日,在接受外媒Gamerbraves采访时,《街头霸王6》的总监中山贵之和制作人松本脩平谈到了更多卡普空经典格斗游戏的保留问题,尽管卡普空已经移植很多经典格斗游戏到现代平台。例如《卡普空格斗合集》系列等,但中山贵之和松本脩平仍然希望尽可能
-
《幻兽帕鲁》开发商不介意被收购 希望游戏登陆更多平台
开放世界生存游戏《幻兽帕鲁》在发售之后获得了压倒性的积极反响,一周内销量突破千万份,也打破了Steam同时在线玩家历史记录,创造了游戏史上的一个新里程碑。现在,在最近接受彭博社采访时,开发商Pocketpair的创始人谈论了《幻兽帕鲁》游戏
-
任天堂紧急停止普售闹钟改为抽选 订单太多没法应对黄牛笑了
任天堂于10月9日晚间忽然公开了一款官方定制闹钟,虽然售价高达700元并不便宜,但还是引发大批粉丝追捧,没想到仅过了一天就宣布紧急停止普售,改为抽选销售,而且还得是任天堂OL会员才有资格,理由是订单太多没法应对,不过黄牛们似乎乐开了花。 ·
-
查宁·塔图姆感谢小贱贱:十年后终于圆演“牌皇”梦
查宁·塔图姆感谢小贱贱:十年后终于圆演“牌皇”梦在最近刚刚上映的《死侍与金刚狼》中有许多20 世纪福克斯时代的演员回归,然而其中包括一名甚至没能拥有自己的电影的演员。在迪士尼于2019 年收购福克斯之前,他的电影从未能逃脱“开发地狱”。他就
-
TRPG新作《夜之足迹》游戏系统新情报公开 明年1月发售
KADOKAWA旗下工作室开发的TRPG新作《夜之足迹》日前官方公开了最新游戏系统情报,本作预定明年1月19日发售,敬请期待。·《夜之足迹》是一款以猫咪为主角的桌上RPG游戏,故事讲述了在人类沉睡之后的寂寥之夜,整个世界悄悄的变成了魔法世界
-
《网络奇兵:重制版》5月登陆主机平台
去年5月份登陆PC之后,Prime Matter和Nightdive Studios宣布,《网络奇兵:重制版》将于5月21日在PlayStation 5、Xbox Series、PlayStation 4和Xbox One平台上发售。《网络