摘要
随着人工智能的发展,越来越多的研究开始关注人工智能伦理.与英文相比,目前面向中文的道德研究开展缓慢,其中一个主要难点是数据短缺问题,且由于理论基础和思维方式等诸多差异,使得英语中的道德识别研究难以直接迁移到中文里,影响了中文道德的相关研究的发展.为解决上述问题,该文提出了面向中文的文本道德句识别任务,并从资源建设和识别方法两个角度对其进行了研究.该文首先利用人工和机器标注两种方法构建了国内首个10万级别的中文道德句数据集.其次提出中文文本道德识别任务,利用当前流行的三类机器学习方法,对中文道德句识别任务的实验表现进行了探索,并得到了对应的识别任务的基线结果.此外,还探索了利用外部知识辅助的方法,对中文道德句的识别任务进行了相关探究.
Abstract
Compared with English,the study on textual moral identification for Chinese is less developed.Due to the differences in theory and mode of thinking,it is difficult to transfer the study of moral recognition from English to Chinese directly.To address the above issues,this paper proposes a task of Chinese moral sentence recognition.We firstly construct large Chinese moral sentence datasets at the level of 100,000 using manual annotation and machine-assisted approach.Then we apply several popular machine learning methods to the task,as well as using external knowledge to further improve the performance.
基金项目
教育部人文社科一般项目(23YJAZH184)
北京语言大学梧桐创新平台(中央高校基本科研业务费专项资金)(21PT04)