2025 年年度中文大模型基准测评报告发布

xiulanshao289 · 2026 年2 月 4 日 08:08

SuperCLUE 正式发布了“2025年度中文大模型基准测评报告”。本次年度通用基准测评共有23个国内外模型参与，测评集包括六大任务：数学推理、科学推理、代码生成(含Web开发)、智能体（任务规划）、精确指令遵循、幻觉控制，共998题。测评要点1. 海外闭源模型仍占据榜单头部位置。在本次2025年年度中文大模型基准测评中，…

rlei886 · 2026 年2 月 5 日 02:57

这就去按照楼主说的方法试试看，希望能解决我遇到的问题，期待实际效果。

wyin691 · 2026 年2 月 5 日 07:55

有没有同领域的朋友，结合楼主的内容聊聊自己的实操经验呀？一起探讨下～

rlei886 · 2026 年2 月 6 日 01:25

感谢楼主的用心整理，帮了大忙，受益匪浅！