摘要
大语言模型的性能提升以海量数据训练为基础,开源代码数据是其重要的语料来源.开源以代码资源的开放共享为理念,以版权保护与协议授权为手段,在传统开源制度中,用户使用开源代码应当附带开源协议输出.而在大模型数据训练中,大模型的介入切开了开源协议的流动,代码数据的无法溯源和开源协议的不兼容使开源协议难以遵守,大模型数据训练的开源之困由此诞生,进而陷入版权保护与产业进步的两难困境.开源协议仅仅是实现技术普惠的工具,在生成式人工智能时代,大模型可以以一种更为开放的方式践行开源的理念,即走向明确的公有领域.在技术普惠理念的指引下,从开源许可协议走向代码数据开放是大模型开源代码数据训练的惠益分享之策.
基金项目
教育部重大攻关课题(22JZD015)
重庆市教委科学技术研究重点项目(KJZD-K202300304)
重庆市社会科学规划一般项目(2023NDYB35)