首页|融合学习扩展的非遗陶瓷工艺领域术语库构建及应用

融合学习扩展的非遗陶瓷工艺领域术语库构建及应用

扫码查看
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTM-CRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。
Thesaurus Development and Application in the Field of Intangible Cultural Heritage Ceramics Incorporated with Learning Extension
Based on extended machine learning and deep learning,this paper proposes a method for term extraction and new word discovery for the Intangible Cultural Heritage(ICH)project corpus,builds a domain thesaurus and explores its application in digital humanities.Firstly,it uses natural language processing methods to pre-process the ICH ceramics corpus and annotate the corpus according to the domain terminology lexicon.Secondly,it uses the Random-CRFs model to investigate how the term extraction is influenced by dictionary(DICT),part-of-speech(POS),radical(Radical),and pinyin(Pinyin)features,and compares the impact of four models,Random-CRFs,Random-BiLSTM,Random-BiLSTM-CRFs,and BERT-BiLSTM-CRFs,on term extraction.Finally,a trained model is used to identify new words from the test corpus,and the extracted candidate words are manually evaluated.A terminology database of 1,173 terms in the field of ICH ceramics is developed and applied to ICH project portraits,ICH ceramics knowledge graphs and ICH ceramics term retrieval.

intangible cultural heritagedomain terminologynew word discoverydigital humanities

汪琳、王昊、李晓敏、邓三鸿

展开 >

南京大学信息管理学院

苏省数据工程与知识服务重点实验室办公室

非物质文化遗产 领域术语 新词发现 数字人文

国家自然科学基金中央高校基本科研业务费专项

72074108010814370113

2024

图书馆论坛
广东省立中山图书馆

图书馆论坛

CSTPCDCSSCICHSSCD北大核心
影响因子:1.864
ISSN:1002-1167
年,卷(期):2024.44(2)
  • 21