Anthropic道歉并取消Claude秘密降级限制

Anthropic遭社区指责暗中破坏，发布声明公开道歉，并宣布调整旗下新模型Claude Fable 5的开发安全策略，取消静默降级性能的限制手段。静默降级机制被指责为「暗中破坏」，导致人工智能研究社区产生强烈反弹。根据服务条款，用户不能使用Claude训练竞争模型，Anthropic计划在不通知用户的情况下直接降低涉嫌训练竞争模型账号的性能。人工智能研究人员警告称，静默降低性能会干扰第三方安全评估机构的测试工作，阻碍开源社区在人工智能安全领域的协作。面对社区质疑，Anthropic承认在安全策略权衡中做出了错误决定，并将开发安全防护机制调整为公开提示。未来将扩大安全拦截的筛选范围，导致部分正常的无害请求也可能被误杀。

Anthropic道歉并取消Claude秘密降级限制

发表回复