基于伪语义相似度模型的中文地址匹配方法

A Chinese addresses matching method based on the pseudo-semantic model

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：地址匹配中,由于传统相似度模型受字符重叠数影响大,在处理简写、缩写地址要素单元时,错误匹配问题突出;深度学习方法需要大量样本支撑,但庞大的数据量和多样的形式,导致生成样本的成本过高.为解决上述问题,本文首先应用基于条件随机场和双向长短时记忆神经网络的模型,对地址进行分词;然后通过建立一种伪语义相似度,对地址要素进行分级匹配.通过对公安业务中地址数据进行测试,在对缩写、简写等不规范地址描述方面,本文模型能较理想地完成任务,各参考指标均高于0.9.

作者：

郁汀、王铎、陈钦

展开 >

作者单位：

公安部第三研究所,上海200031

复旦大学,上海200433

关键词：

条件随机场和双向长短时记忆神经网络地址要素解析伪语义相似度地址匹配地址标准化

出版年：

2022

测绘通报

测绘出版社

测绘通报

CSTPCDCSCD北大核心

影响因子：1.027

ISSN：0494-0911

年,卷(期)：2022.(3)

被引量1
参考文献量14