OpenAI证实对齐强泛化：AI在健康对话中变老实

OpenAI发表最新研究，证实了对齐领域中奇妙的「强泛化」现象：研究人员只需在极少数日常场景中把AI教成不撒谎、乐于认错的「好人」，AI在从未学过的全新场景里也会自动变乖。实验证明，正向的对齐人格同样具备跨领域传染力。研究团队在医疗、教育、科学等场景中重点训练了大模型的诚实和谦虚等特质。测试发现，模型学到好人特质后，在53项安全评估中，有44项超越了普通模型。研究团队认为，注入善良的强化学习训练能让对齐特质在模型深层生根发芽，真正起到「以点带面」的防护效果。