WecoAI评测:Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型

WecoAI发布评测结果,月之暗面最新开源的万亿参数模型Kimi-K2.7-Code在机器学习工程任务中击败了包括Anthropic旗舰模型Fable-5在内的所有受试前沿大模型。评测采用成本受限的协议,意味着在固定资金预算内,单价更低的模型能够进行更多尝试与迭代。尽管Fable-5在测试套件与提示词工程、算法发现两类任务中表现优异并夺得总冠军,但在机器学习工程任务中,其表现甚至落后于上一代模型Claude 3 Opus。评测团队指出,Fable-5的表现不佳可能与其昂贵的API费用有关,或是任务触发了模型更为严苛的安全护栏。

上一篇:

下一篇:

发表回复

登录后才能评论