首个AI高考全卷评测结果发布:最高分303 数学全不及格

摘要 上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。根据测试,阿里通义千问2-72B以303分的成绩排名第一,O...

上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。根据测试,阿里通义千问2-72B以303分的成绩排名第一,OpenAI的GPT-4o以296分排名第二,上海人工智能实验室的书生·浦语2.0以283分排名第三。所有大模型的得分率均超过70%。然而,在数学科目中,所有大模型都未及格,最高只有75分。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。