摘要
训练数据是人工智能大模型内容生成的基础.从实践来看,大模型存在训练数据不当收集、训练数据投毒、训练数据代表性不足以及训练数据泄露等诸多风险,严重威胁着大模型产业的健康发展.我国现有针对训练数据风险治理的立法层级较低,且存在风险治理规范不够全面、数据风险治理义务分配不清晰以及责任规范欠缺等诸多不足.宜采用管制性监管与激励性监管并重的治理模式,确立技术、管理制度和责任三位一体的治理机制,并从规范训练数据收集、明确数据投毒的法律责任、确保训练数据的代表性以及保障训练数据安全四个方面入手,构建贯穿法律、行政法规和部门规章的大模型训练数据风险治理的规范体系.