电话:020-66888888
讨论了OpenAI OpenA O3基准标记,实际的测试分数少
作者:365bet体育注册 发布时间:2025-04-25 10:29
4月21日,O3人工智能模型的OpenAI基准的第一和第三方结果存在显着差异,这引起了人们对透明度和模型测试技能的怀疑。本文指出:去年12月,OpenAI宣布该模型能够正确回答在Frontiermath中巨大的数学问题中的多个问题以上的问题。该标记在竞争对手中较早 - 第二排名模型只能回答大约2%的前提问题。 OpenAI首席研究官Mark Chen在实时广播中说:“市场上的所有其他产品目前在Frontiermath中不到2%,在我们的内部试验中,通过积极的测试时间计算设置,我们的校正率将超过25%。” Gahowever,这个高分似乎是一个上限,由O3模型的更强版本实现,而不是上周Openai公开发布的版本。 Epoch Institute,运营边境Math在周五发布了O3模型的独立基准测试结果,发现O3仅为10%,小于Openai先前声称的最高分数。这并不意味着Openai的谎言,该公司还包括一个较低的标记,该标记与12月发布的基准结果期间相匹配的测试结果。 Epoch还指出,其测试设置可能在OpenAI中有所不同,其评论使用了较新的Frontiermath。 “我们在OpenAI的结果上的差异可能是因为OpenAI使用了更强的计算框架进行内部检查,在测试时间进行了更多的测试来源,或者随着这些结果在Frontiermath的不同子集上进行操作(例如,2024年11月26日的180个问题,2024年11月26日的180个问题,与2月28日,2025年2月28日的私人版本的290个问题相比,在2025年的私人版本中,该版本是o3 of o3 of o3 of o3 of o3 of o3 of o3 of of o3 of o3。聊天/产品的使用”,进一步证实了时期报告。基准标记。O3失败的O3为了完全实现OpenAI的测试性能,它对某些尺寸不再至关重要。主题,因为该公司随后的O3-Mini-High和O4-Mini型号在Frontiemath的O3中脱颖而出。此外,OpenAI计划在接下来的几周内推出O3,O3-Pro的更强版本。但是,这件事提醒人们最好不要接受AI基准结果,尤其是如果结果来自一家需要出售产品的公司。随着人工智能行业的竞争加剧,供应商渴望通过引入新模型来吸引市场的关注和份额,基准的“争议”变得司空见惯。今年1月,Epoch因揭示Openai宣布O3宣布的Openai获得的财政支持而受到批评。许多为前卫做出贡献的学者都不知道Openai对公众的参与。最近,埃隆·马斯克(Elon Musk)的Xai被指控出版了一个误导性的长凳最新人工智能模型的Mark图表Grok 3。仅本月,Meta还承认,它在基准标记上宣布的模型的版本与开发人员的版本不符。
电话
020-66888888