公有领域中大模型开源代码数据训练的惠益分享

张惠彬 ¹许蕾²

扫码查看

作者信息

1. 西南政法大学知识产权研究院
2. 西南政法大学
折叠

摘要

大语言模型的性能提升以海量数据训练为基础,开源代码数据是其重要的语料来源.开源以代码资源的开放共享为理念,以版权保护与协议授权为手段,在传统开源制度中,用户使用开源代码应当附带开源协议输出.而在大模型数据训练中,大模型的介入切开了开源协议的流动,代码数据的无法溯源和开源协议的不兼容使开源协议难以遵守,大模型数据训练的开源之困由此诞生,进而陷入版权保护与产业进步的两难困境.开源协议仅仅是实现技术普惠的工具,在生成式人工智能时代,大模型可以以一种更为开放的方式践行开源的理念,即走向明确的公有领域.在技术普惠理念的指引下,从开源许可协议走向代码数据开放是大模型开源代码数据训练的惠益分享之策.

关键词

大语言模型/开源许可协议/公有领域/技术普惠

引用本文复制引用

基金项目

教育部重大攻关课题(22JZD015)

重庆市教委科学技术研究重点项目(KJZD-K202300304)

重庆市社会科学规划一般项目(2023NDYB35)

出版年

2024

特区实践与理论

中共深圳市委党校深圳行政学院深圳社会主义学院深圳经济管理学院

特区实践与理论

CHSSCD

影响因子：0.18

ISSN：1673-5706

参考文献量20

段落导航