大模型2024高考发榜,豆包等三款国产AI考上文科一本线
大模型2024高考发榜,豆包等三款国产AI考上文科一本线
大模型参加高考,能考多少分,上什么大学?
6 月 24 日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分,其后依次是百度文心一言 4.0 的 537.5 分、百川智能 " 百小应 " 的 521 分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为 521 分,豆包等三款国产 AI 成功冲上一本线。
与文科相比,大模型的理科成绩要差很多,最高分还不到 480 分,多数大模型的理科总分在 400 分以下。相比河南理科 511 分的一本线,大模型尚有较大差距。
大语言模型遇上语言考试:有望冲满分
语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。
凭借中文语言的 " 主场优势 ",三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为 128 分、125.5 分和 120.5 分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。
作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为:"Al 写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。"
英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得 30 分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得 80 分满分,豆包和文心一言 4.0 也接近满分。但是在 40 分的写作考试中,最高分只有 29 分,分别由 GPT-4o 和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。
文综出色,豆包获 " 历史 " 最高分
在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o 获得 237 分的成绩,平均分达到 79 分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到 224.5 分,其中历史科目拿到 82.5 分,在所有 9 款大模型中得分第一。
政治考试中,GPT-4o 出人意料的获得了 88 分的最高分,百小应和豆包得分超过 80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的 GPT-4o 得到最高分,但仅有 68 分。
河南高考分数段统计数据显示,GPT-4o 的 562 分在文科考生中排名 8811 名,相当于人类考生的前 2.45%,豆包则处于前 4.27% 的位置。在过去一年多时间里,国产 AI 技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。
数理全线不及格,AI 有待提升
与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括 GPT-4o 在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前 30%。
以数学试卷为例,9 款大模型产品中,仅 GPT-4o、文心一言 4.0 和豆包获得 60 分以上成绩(满分 150 分),目前的大模型只能正确推理步骤相对简单的问题。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。
重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有 34 分和 39 分(满分为 100 和 110)。化学单项最高分由豆包获得,成绩为 49.5 分,GPT-4o 仅有 42 分。大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据 " 时间不会倒流 " 可以排除错误选项,轻易选对正确答案 "C",大模型则几乎全军覆没。要学会像人类一样思考和解决问题,大模型还有很长的路要走。
-
- 还记得“小芈月”吗?
-
2024-06-26 06:20:46
-
- 鼓励放弃、退出农村宅基地!江苏、安徽等地出台相关政策
-
2024-06-26 06:18:30
-
- 道光二十一年广州“观音大士显圣”事件,背后真相让人一声长叹
-
2024-06-26 06:16:14
-
- 广东工业大学2024年计划招生10150人,新增4个专业
-
2024-06-26 06:13:58
-
- C罗追平历史助攻王,葡萄牙提前锁定小组第一
-
2024-06-26 06:11:42
-
- 有媒体称欧方担心中欧贸易摩擦升级或引发“贸易战”,商务部回应
-
2024-06-25 02:53:30
-
- 俄朝“同盟”条约中,有哪些值得注意的因素?
-
2024-06-25 02:51:14
-
- 多地宣布:取消,关停!
-
2024-06-25 02:48:58
-
- 三星 Galaxy Z Fold 6 曝光:外观更加硬朗,配置小修小补
-
2024-06-25 02:46:43
-
- 爆舱又甩柜!班轮公司频调附加费,差价空间小货代直言“赚不了钱”
-
2024-06-25 02:44:27
-
- 江苏500亿基金来了,多地设立天使基金
-
2024-06-25 02:42:11
-
- 2024高考物理有多烧脑?张朝阳评压轴大题难度达到物理竞赛水平
-
2024-06-25 02:39:55
-
- 完美破解半个世纪的难题,我国科研团队实现海上风电驱动海水制氢
-
2024-06-25 02:37:39
-
- 广东集全省之力,驰援梅州!
-
2024-06-25 02:35:23
-
- 胡锡进:中国的民营企业家从根本上说也都是劳动者
-
2024-06-25 02:33:08
-
- 财政部:1—5月全国一般公共预算收入96912亿元,同比下降2.8%
-
2024-06-25 02:30:05
-
- 突发!美国关闭俄罗斯在华盛顿和纽约的签证中心!普京此前发声:已做好应对任
-
2024-06-25 02:27:49
-
- 深耕证监系统20年,江苏证监局局长凌峰任上被查,涉嫌严重违纪违法
-
2024-06-25 02:25:33
-
- 梅州各行政村已恢复村村通电
-
2024-06-25 02:23:17
-
- 一场“默契”球,日耳曼战车“开”进了死亡上半区
-
2024-06-25 02:21:03