OpenAI推出代码生成评估基准

2024-08-14 12:02:17

摘要【OpenAI推出代码生成评估基准】OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到：随着我们的系统越来越接近 AGI...

【OpenAI推出代码生成评估基准】OpenAI推出代码生成评估基准SWE-bench Verified。该公司在官网博客中提到：随着我们的系统越来越接近 AGI，我们需要在越来越具有挑战性的任务中对它们进行评估。这一基准是对现有SWE-bench的改进版本（子集），旨在更可靠地评估AI模型解决现实世界软件问题的能力。SWE-bench是一个软件工程评估套件，用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢。

标签：

上一篇:国家统计局：8月上旬生猪（外三元）价格环比上涨5.7%

下一篇:最后一页

OpenAI推出代码生成评估基准

猜你喜欢

最新文章