作为生成式人工智能核心驱动力的训练数据的治理研究
Research on the Governance of Training Data as the Core Driving Force of Generative Artificial Intelligence作者机构:重庆大学法学院重庆400044
出 版 物:《情报资料工作》 (Information and Documentation Services)
年 卷 期:2024年第45卷第4期
页 面:87-95页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 120502[管理学-情报学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:司法部专项任务课题“数字治理法治化研究”(项目编号:21SFB4004) 中央高校基本科研业务费项目“算法决策风险及其法律规制”(项目编号:2021CDSKXYFX009)的研究成果之一
摘 要:[目的/意义]当前研究对于生成式人工智能训练数据的治理问题关注较少。然而,训练数据的生命周期中存在着诸多不容忽视的风险,亟需有效的治理。[方法/过程]文章在论证了训练数据是生成式人工智能核心驱动力的基础上,使用数据生命周期的理论模型,全面归纳了训练数据生命周期中可能出现的风险样态。然后,从训练数据自身特性、生态性因素与生成式人工智能开发者操作性因素等角度分析了相关风险的成因。[结果/结论]数据本身的碎片化特性与偏见性是风险发生的起点;数据的生态失衡是风险发生的外部成因;同时“,黑箱中的训练数据、偏差的数据标注与懈怠的数据脱敏则是风险发生的内在成因。由此,针对训练数据的特性,可以借助“可怜圆点的框架,为其构建一个综合法律、市场、社群规范以及架构的风险治理方案。