首页期刊导航|北京大学学报(自然科学版)
期刊信息/Journal information
北京大学学报(自然科学版)
北京大学
北京大学学报(自然科学版)

北京大学

赵光达

双月刊

0479-8023

xbna@pku.edu.cn

010-62756706

100871

北京海淀北京大学校内

北京大学学报(自然科学版)/Journal Acta Scientiarum Naturalium Universitatis PekinensisCSCD北大核心CSTPCDEI
查看更多>>本学报创建于1955年12月,是北京大学主办的自然科学(包括技术科学)综合类学术性刊物。主要刊登北京大学教师、研究生及海内外校友在基础科学、技术科学和边缘科学等领域的研究成果及综述性文章。由北京大学18个理科院、系、所的30名教授组成学报编委会,负责确立学报的办刊宗旨及审定论文的学术质量。学报被国际权威检索文献数据库CA,SA,MR,GR以及EI等收录,是国内自然科学综合类学科的核心期刊,在国内的被引用率、影响因子等在综合类学术期刊中都名列前茅)。
正式出版
收录年代

    增强提示学习的少样本文本分类方法

    李睿凡魏志宇范元涛叶书勤...
    1-12页
    查看更多>>摘要:针对少样本文本分类任务,提出提示学习增强的分类算法(EPL4FTC).该算法将文本分类任务转换成基于自然语言推理的提示学习形式,在利用预训练语言模型先验知识的基础上实现隐式数据增强,并通过两种粒度的损失进行优化.为捕获下游任务中含有的类别信息,采用三元组损失联合优化方法,并引入掩码语言模型任务作为正则项,提升模型的泛化能力.在公开的 4 个中文文本和 3 个英文文本分类数据集上进行实验评估,结果表明 EPL4FTC 方法的准确度明显优于所对比的基线方法.

    预训练语言模型少样本学习文本分类提示学习三元组损失

    融合知识的文博领域低资源命名实体识别方法研究

    李超侯霞乔秀明
    13-22页
    查看更多>>摘要:文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低.针对这些问题,构建一个可用于文物命名实体识别的数据集 FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法 RelicsNER.该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题.与基线模型相比,该方法在 FewRlicsData 数据集上的 F1 值有所提升,在文博领域命名实体识别任务中取得较好的性能.在公开数据集 OntoNotes 4.0 上的实验结果证明该方法具有较好的泛化性,同时在数据集 OntoNotes 4.0 和 MSRA 上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景.

    文博领域命名实体识别知识融合注意力机制

    一种消减多模态偏见的鲁棒视觉问答方法

    张丰硕李豫李向前徐金安...
    23-33页
    查看更多>>摘要:为了增强视觉问答模型的鲁棒性,提出一种偏见消减方法,并在此基础上探究语言与视觉信息对偏见的影响.进一步地,构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见,利用偏见消减方法,得到鲁棒性更强的预测结果.最后,依据标准视觉问答与偏见分支之间的预测概率差异,对样本进行动态赋权,使模型针对不同偏见程度的样本动态地调节学习程度.在 VQA-CP v2.0 等数据集上的实验结果证明了所提方法的有效性,缓解了偏见对模型的影响.

    视觉问答数据集偏差语言偏见深度学习

    基于交叉注意力多源数据增强的情境感知查询建议方法

    张乃洲曹薇
    34-42页
    查看更多>>摘要:当前基于神经网络模型的查询建议研究往往单独采用查询日志会话中的查询序列作为训练数据,但由于查询本身缺乏句法关系,甚至缺失语义,导致神经网络模型不能充分挖掘和推理查询序列中各种词或概念之间语义关系.针对这一问题,提出一种基于交叉注意力多源数据增强(MDACA)的 Transformer 模型框架,用于生成情境感知的查询建议.采用基于 Transformer 的编码器-解码器模型,利用交叉注意力机制,融合了查询层、文档语义层以及全局查询建议信息.实验结果表明,与目前方法相比,该方法能生成具有更高相关性的情境感知查询建议.

    查询建议数据增强交叉注意力情境感知Transformer模型

    ChatGPT可否充当情感专家?——调查其在情感与隐喻分析的潜力

    张亚洲王梦遥戎璐俞洋...
    43-52页
    查看更多>>摘要:为了探索 ChatGPT 情感分析能力以及对主观性和隐喻性理解的潜力,将 ChatGPT 在 5 个情感、幽默与隐喻基准数据集上展开评估,通过与领域内最前沿的模型对比,讨论其在不同任务上的优势与局限.此外,还通过对比 ChatGPT 与人类在情感分析中的性能差别,发现 ChatGPT 在情感、幽默与隐喻任务上与人类结果分别相差 9.52%,16.64%和 6.69%.实验结果表明,尽管 ChatGPT 在对话生成方面获得最佳表现,但是其在情感理解方面仍具有改进的潜力.最后,通过改善提示模板,调查 ChatGPT 在情感理解场景下对提示模板的敏感性.

    ChatGPT情感分析幽默检测隐喻识别

    集成显著性话语上下文窗口采样方法的长对话摘要生成模型

    吴杰王鹏鸣熊正坤
    53-61页
    查看更多>>摘要:针对对话语料的特点,提出一种集成显著性话语上下文窗口采样方法的长对话摘要生成模型.该模型分为两个模块:1)显著性话语上下文窗口采样模块将对话话语进行显著性评估,以显著性话语作为采样锚点,然后设置采样窗口,将采样锚点左右相邻的话语一起提取为片段,提取出来的片段包含更丰富的话语关系;2)片段间信息融合摘要生成模块利用 Transformer 块,将相互独立的片段进行信息融合,加强片段之间的语义关系,并且为片段在生成摘要期间分配混合权重.利用一致性损失机制,鼓励显著性话语上下文窗口采样模块确定更佳的采样锚点.在基于查询的长对话摘要公开数据集 QMSum 上的实验结果表明,该模型在ROUGE 评估指标上的分数高于现有最好的模型.

    长对话摘要窗口采样显著性话语信息融合生成模型

    基于知识图谱和预训练语言模型深度融合的可解释生物医学推理

    徐寅鑫杨宗保林宇晨胡金龙...
    62-70页
    查看更多>>摘要:基于预训练语言模型(LM)和知识图谱(KG)的联合推理在应用于生物医学领域时,因其专业术语表示方式多样、语义歧义以及知识图谱存在大量噪声等问题,联合推理模型并未取得较好的效果.基于此,提出一种面向生物医学领域的可解释推理方法 DF-GNN.该方法统一了文本和知识图谱的实体表示方式,利用大型生物医学知识库构造子图并进行去噪,改进文本和子图实体的信息交互方式,增加对应文本和子图节点的直接交互,使得两个模态的信息能够深度融合.同时,利用知识图谱的路径信息对模型推理过程提供了可解释性.在公开数据集 MedQA-USMLE 和 MedMCQA 上的测试结果表明,与现有的生物医学领域联合推理模型相比,DF-GNN 可以更可靠地利用结构化知识进行推理并提供解释性.

    生物医学预训练语言模型知识图谱联合推理

    基于多尺度特征解析的放射学报告生成方法

    王瑞梁建国花嵘
    71-78页
    查看更多>>摘要:在使用深度学习模型自动生成放射学报告时,由于数据的极度不平衡,当前的模型难以识别异常区域特征,从而导致对疾病的错判与漏判.为了提升模型对疾病的识别能力,提高放射学报告的质量,提出使用多尺度特征解析 Transformer(MFPT)模型来生成放射学报告.构建一个关键特征强化注意力(KFEA)模块,以便加强对关键特征的利用;设计一个多模态特征融合(MFF)模块,以便促进语义特征与视觉特征的特征融合,缓解特征差异造成的影响;探索阶段感知(SA)模块在放射学报告任务中对初级特征的优化作用.最后,在流行的放射学报告数据集 IU X-Ray 上,与当前的主流模型进行对比实验,结果表明,所提模型取得当前最佳效果.

    注意力机制特征融合放射学报告Transformer图像-文本生成

    双向注意力文本关键词匹配法条推荐

    丁娜刘鹏邵惠鹏王学奎...
    79-88页
    查看更多>>摘要:提出一种双向注意力文本关键词匹配的法条推荐模型(BiAKLaw).该模型以预训练语言模型 BERT 作为基础匹配模型,利用双向注意力机制提取字符级对齐特征和关键词差异特征,融合对齐特征、差异特征和关键词语义表征来提升匹配效果.在裁判文书交通肇事和故意伤害数据集上的实验结果表明,与 BERT 模型相比,BiAKLaw 在评价指标 F1 上分别提升 3.74%和 3.43%.

    法条推荐案件事实文本匹配注意力机制

    高焓流动中的可压缩颗粒两相流并行求解器:数值方法及其验证

    李青余钊圣刘朋欣李婷婷...
    89-108页
    查看更多>>摘要:在极端力学环境下可压缩点力颗粒两相流理论方程的基础上,提出一种基于动态链表数组的并行颗粒求解器,使其与可压缩流体求解器耦合.与基于欧拉坐标系的携带流体相不同,基于拉格朗日坐标系的求解器采用动态链表数组对弥散颗粒相进行内存分配,可以解决因使用全局数组解决拉格朗日/欧拉坐标系转换带来的弥散颗粒群内存利用率低和计算效率低下问题.最后对多物理效应的可压缩颗粒两相流求解器进行验证,并在马赫数渐进趋于零的情况下,对两个不可压缩槽道颗粒湍流标模进行验证.

    动态链表数组拉格朗日/欧拉坐标系转换可压缩点力颗粒两相流直接数值模拟求解器