OpenAI发表最新研究,证实了对齐领域中奇妙的「强泛化」现象:研究人员只需在极少数日常场景中把AI教成不撒谎、乐于认错的「好人」,AI在从未学过的全新场景里也会自动变乖。实验证明,正向的对齐人格同样具备跨领域传染力。研究团队在医疗、教育、科学等场景中重点训练了大模型的诚实和谦虚等特质。测试发现,模型学到好人特质后,在53项安全评估中,有44项超越了普通模型。研究团队认为,注入善良的强化学习训练能让对齐特质在模型深层生根发芽,真正起到「以点带面」的防护效果。
OpenAI发表最新研究,证实了对齐领域中奇妙的「强泛化」现象:研究人员只需在极少数日常场景中把AI教成不撒谎、乐于认错的「好人」,AI在从未学过的全新场景里也会自动变乖。实验证明,正向的对齐人格同样具备跨领域传染力。研究团队在医疗、教育、科学等场景中重点训练了大模型的诚实和谦虚等特质。测试发现,模型学到好人特质后,在53项安全评估中,有44项超越了普通模型。研究团队认为,注入善良的强化学习训练能让对齐特质在模型深层生根发芽,真正起到「以点带面」的防护效果。