WecoAI评测：Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型

WecoAI发布评测结果，月之暗面最新开源的万亿参数模型Kimi-K2.7-Code在机器学习工程任务中击败了包括Anthropic旗舰模型Fable-5在内的所有受试前沿大模型。评测采用成本受限的协议，意味着在固定资金预算内，单价更低的模型能够进行更多尝试与迭代。尽管Fable-5在测试套件与提示词工程、算法发现两类任务中表现优异并夺得总冠军，但在机器学习工程任务中，其表现甚至落后于上一代模型Claude 3 Opus。评测团队指出，Fable-5的表现不佳可能与其昂贵的API费用有关，或是任务触发了模型更为严苛的安全护栏。

WecoAI评测：Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型

发表回复