• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多
8月13日,星期三
6 小时前
GPT-5 测试结果存疑

GPT-5 新猫腻曝光:故意避开难题刷分

此前,OpenAI 在发布 GPT-5 时,曾因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。

而在近期,知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻——GPT-5 在跑 SWE-bench Verified(共 500 道题)测试时,竟然只做了 4 ​……

[展开]
加载更多