大模型道德价值观对齐问题剖析
Unpacking the Ethical Value Alignment in Big Models作者机构:微软亚洲研究院北京100080
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2023年第60卷第9期
页 面:1926-1945页
核心收录:
学科分类:01[哲学] 12[管理学] 0101[哲学-哲学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 010105[哲学-伦理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:探讨了以大语言模型(large language model,LLM)为代表的大模型(big model)时代人工智能(artificial intelligence,AI)发展面临的新挑战:道德价值观对齐问题.大模型的崛起极大地提升了AI理解、生成和控制信息与内容的能力,从而赋能了丰富的下游应用.然而,随着大模型成为与人类生活方方面面深度交融的基础,其内在的道德价值观和潜在的价值倾向对人类社会带来不可预测的风险.首先对大模型面临的风险和挑战进行了梳理,介绍了当下主流的AI伦理准则和大模型的局限性对应的道德问题.随后提出从规范伦理学的角度重新审视近年来不断提出的各类规范性准则,并倡导学界共同协作构建统一的普适性AI道德框架.为进一步探究大模型的道德倾向,基于道德基础理论体系,检验了当下主流大语言模型的道德价值倾向,梳理了现有的大模型对齐算法,总结了大模型在道德价值观对齐上所面临的独特挑战.为解决这些挑战,提出了一种新的针对大模型道德价值观对齐的概念范式,从对齐维度、对齐评测和对齐方法3个方面展望了有潜力的研究方向.最后,倡导以交叉学科为基础,为将来构建符合人类道德观的通用AI迈出了重要一步.