计算机应用与软件2024,Vol.41Issue(7) :184-191.DOI:10.3969/j.issn.1000-386x.2024.07.028

融合字段类型与文本匹配的中文问句解析

CHINESE QUESTION PARSING BASED ON FIELD TYPES AND TEXT MATCHING

纪相存 李大林 彭晓东
计算机应用与软件2024,Vol.41Issue(7) :184-191.DOI:10.3969/j.issn.1000-386x.2024.07.028

融合字段类型与文本匹配的中文问句解析

CHINESE QUESTION PARSING BASED ON FIELD TYPES AND TEXT MATCHING

纪相存 1李大林 2彭晓东2
扫码查看

作者信息

  • 1. 中国科学院国家空间科学中心 北京 101499;中国科学院大学 北京 100049
  • 2. 中国科学院国家空间科学中心 北京 101499
  • 折叠

摘要

自然语言转SQL语句技术可以帮助用户使用数据库,而WikiSQL数据集对表格内容的保护一定程度上限制了模型的使用,基于此,提出一种融合字段类型与文本匹配的中文问句解析方法.基于SQL结构分解问句解析任务,通过字段类型相关的分隔符将表结构信息结合到RoBERTa编码器输入中,并使用结合编辑距离与语义词典的文本匹配来使模型更加鲁棒.在中文数据集TableQA进行测试,该方法取得了最好的效果,正确率达到 93.44%.

Abstract

Translating natural language questions to SQL statements can help more users to obtain what they want from the database.The protection of table content by the English dataset WikiSQL limits the migration and use of the model to a certain extent.In order to solve this problem,this paper proposes a Chinese question parsing methods combining the field types with text matching.The task was decomposed based on the SQL structure.The table structure information was combined into the input of the Roberta encoder through the column separators related to the field types.The text matching method combining the edit distance and semantic dictionary was used to make the model more robust.This method was tested on the more difficult Chinese dataset TableQA.The accuracy rate was up to 93.44%and the result verified that the method was efficient.

关键词

自然语言转SQL语句/表结构信息/SQL结构/文本匹配

Key words

Natural language to SQL statements/Table structure/SQL structure/Text matching

引用本文复制引用

出版年

2024
计算机应用与软件
上海市计算技术研究所 上海计算机软件技术开发中心

计算机应用与软件

CSTPCD北大核心
影响因子:0.615
ISSN:1000-386X
段落导航相关论文