首页期刊导航|山西大学学报(自然科学版)
期刊信息/Journal information
山西大学学报(自然科学版)
山西大学
山西大学学报(自然科学版)

山西大学

杨斌盛

季刊

0253-2395

xbbjb@sxu.edu.cn

0351-7010455

030006

太原市坞城路92号

山西大学学报(自然科学版)/Journal Journal of Shanxi University(Natural Science Edition)CSCD北大核心CSTPCD
查看更多>>本刊反映校内外、数学与计算机科学、物理学、化学、生命与环境科学等自然科学领域的基础研究和应用研究的最新研究成果,报道成果形式主要有研究论文,研究综述和研究简报。读者对象,广大自然科学技术领域的研究人员。
正式出版
收录年代

    基于互信息和遗传算法的特征选择算法

    张婧曹峰董毓莹张超...
    1-8页
    查看更多>>摘要:本文提出了一种新的基于互信息和遗传算法的监督、封装型特征选择算法。该算法设计了基于互信息的特征之间以及特征与类之间的相关性度量指标,并结合遗传算法具有的较强的全局寻优能力,在候选特征空间中寻找特征间相关性低,特征与类相关性高且分类精度高的全局最优特征子集。本文在10个标准数据集上,与8个基于相关性的特征选择算法进行了对比实验。在3个分类器下,本文算法对应的平均分类精度分别为88。98%,87。5%和86。95%,优于所有对比算法。结果表明,本文算法可以有效降低原始特征集的维数并提升分类器的精度。

    特征选择相关性互信息遗传算法

    基于端叉特征融合的指纹识别算法

    李昊翔陈玉明吴克寿
    9-17页
    查看更多>>摘要:生物特征识别有多种多样,例如人脸识别、指纹识别、DNA基因测序等,以往各种文献中,大多数采用复杂算法或是深度学习的方法,其实时性不强。本文针对指纹纹路繁杂的特点,去繁取简抽取纹路的端叉关键点特征,利用图像处理技术和最新的OpenCV4实现指纹识别算法,避免了复杂算法和深度学习中计算耗时的问题。首先,利用图像处理的相关技术对采集的图像进行预处理,包括剪裁,旋转,多种滤波;其次,构建指纹端叉融合的特征提取算法确定相应的类型和角度,并绘制出待识别指纹特征融合关键点个数1 670个;最后对指纹识别功能进行测试得出结论。本算法特征提取的平均耗时为47。0 ms,平均匹配时间约为7。7 ms,同时准确率在不同特征提取算法中最高,为93。8%。由此得出该算法能够快速准确地对指纹库的指纹进行识别与比对,有效提高了指纹识别的精度与效率。

    指纹识别端叉融合图像处理直方图均衡化OpenCV

    基于模糊隶属度函数的SVM样本约简算法

    张代俐汪廷华朱兴淋
    18-29页
    查看更多>>摘要:支持向量机(Support vector machine,SVM)具有良好的学习泛化性能,但其学习效率随着训练样本数量的增加而显著降低,对于大规模训练集,采用标准优化方法的传统SVM面临着内存需求过大、执行速度慢等问题。为了缓解这个问题,由于不同的数据点对决策平面的贡献程度不同,本文通过模糊隶属度函数计算每个样本的隶属度,利用模糊隶属度评估每个样本的重要程度,从而将隶属度值低的样本进行约简。基于三种不同的模糊隶属度函数,分别提出了基于类中心距离、核目标对齐和中心核对齐模糊隶属度函数的SVM样本约简算法。在UCI(University of California,lrvine)和kaggle数据集上与传统的SVM和最近提出的基于牛顿法稀疏化SVM(Newton-type Sparse SVM,NSSVM)进行了大量的对比实验,实验结果验证了所提出的基于模糊隶属度函数的SVM样本约简算法在准确率、F-度量和Hinge损失这几个分类性能指标方面的优势。例如,基于中心核对齐模糊隶属度的SVM约简算法在diabetes数据集上取得了最高的准确率、F-度量和最小的Hinge损失。与SVM相比,准确率和F-度量分别提高了13。71%和9。55%,Hinge 损失降低了3。28%;与NSSVM相比,准确率和F-度量分别提高了24。54%和9。38%,Hinge 损失降低了21。54%。

    机器学习支持向量机样本约简模糊隶属度函数

    基于簇中心预选策略的三支决策密度峰值聚类算法

    罗舒文万仁霞苗夺谦
    30-39页
    查看更多>>摘要:本文针对密度峰值聚类算法(CFSFDP)无法自动选取簇中心的不确定性问题,通过引入三支决策理论对其进行优化,提出了一种基于簇中心预选策略的三支决策密度峰值聚类算法(TDPC)。首先利用密度和距离两参数的统计特性将数据对象划分核心域、边界域与琐碎域,符合条件的聚类中心被置于核心域,难以判定的疑似聚类中心点则被置于边界域,然后通过定义的 k-可达域和判别准则对疑似聚类中心进行分析,选取出实际聚类中心。所提出算法有效解决了密度峰值聚类算法聚类中心自动确定问题。在2个人工数据集和4个UCI(University of Cali-fornia,lrvine)公共数据集上对TDPC进行测试。与CFSFDP算法和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法进行聚类性能比较,所提出算法TDPC在轮廓系数、DB(Davies-Bouldin)指数、调整互信息、调整兰德系数、FM(Fowlkes-Mallows)指数、同质性、完整性等聚类评价指标方面均达到最优或与最优算法结果相近,表明TDPC综合聚类性能优于比较算法,具有良好的聚类可行性与有效性。

    聚类算法聚类中心边界域三支聚类密度聚类k-可达域

    基于邻域粒化的逻辑回归算法

    闫静茹陈颖悦曾高发刘培谦...
    40-47页
    查看更多>>摘要:逻辑回归作为一种经典的分类算法,其结构简单且可解释性强。然而,逻辑回归难以处理模糊与不确定的非线性数据。为了解决这一问题,通过采用粒计算理论中的邻域粒化技术,提出了一种基于邻域粒化的逻辑回归算法。对于非线性数据,邻域粒化使数据更容易进行分离和构造。首先,对数据集样本的单特征进行邻域粒化,构造出邻域粒子。然后在多特征上形成邻域粒向量。此外,定义了这些邻域粒向量的度量与运算规则,并设计了一种邻域粒逻辑回归算法,有效地提高了逻辑回归的分类准确性。在WDBC(Diagnostic Wisconsin Breast Cancer),Iris以及Seeds等数据集上进行了分类实验,与经典的逻辑回归进行了比较,结果表明,本文提出算法的分类准确率相较于经典的逻辑回归在三个数据集上分别高出0。6%,7。6%,4。1%。

    逻辑回归单特征粒化粒计算邻域粒子粒向量

    面向目标多模态情感分析的双通道循环神经网络模型

    王静红高远李昊康
    48-58页
    查看更多>>摘要:面向目标的多模态情感分析,其任务是对多模态帖子或评论中给定的目标词进行情感分类。针对目前该领域结合循环神经网络的模型只关注于一般的文本和图片表示,没有同时考虑模态内和模态间的信息交互,且忽略了图像信息中的噪声的问题,提出了一种双通道循环神经网络模型(DRNN)。该模型首先设计了一个基于注意力机制的循环神经网络模块,该模块利用门控循环单元(Gate Recurrent Unit,GRU)来过滤图像的噪声,之后通过注意力机制将文本和图像融合,最后将融合后的信息逐步加入目标信息中,得到模态间的动态表示。另外提出了一个目标文本交互循环神经网络模块,该模块通过计算目标信息与上下文中每个词的权重来学习模态内的上下文表示。最后将两部分模块得到的信息拼接后送入全连接层和softmax层预测情感极性。在两个基准数据集Twit-ter-15和Twitter-17上进行了大量实验,实验结果表明,与当前最先进的模型相比该模型能够有效增强面向目标的多模态情感分析的效果。

    循环神经网络多模态面向目标的情感分析注意力机制噪声

    基于标记相关性的多标记专属特征学习算法

    李华王志杰
    59-68页
    查看更多>>摘要:基于双标记专属特征的多标记分类算法(BILAS)是一种代表性的多标记学习算法,然而其只考虑了在标记对下取值不同的样本,忽略了取值相同的样本,使得生成的专属特征不能全面准确地刻画标记信息。针对这一不足,基于标记的二阶相关性,对标记对的全部类型样本生成专属特征,提出基于标记相关性的多标记专属特征学习算法。首先,利用基于距离的原型学习方法选择所有标记对的原型,并进一步生成相应的专属特征;然后利用标记幂集的思想构造多标记分类器。在来自MULAN(a Java library for multi-label learning)的5个公开测试数据集上进行实验,与BILAS算法和基于校准标记排序的多标记分类算法(CLR)相比,所提算法在5种多标记评价指标上综合平均排名均是第一,且分别比BILAS和CLR算法提高了20。4%和37。1%,表明了所提算法具有较好的性能。

    多标记学习数据降维相似度原型学习标记幂集

    基于变分自编码器与流形特征的聚类算法

    陈俊芬韩金池谢博鋆谢政豪...
    69-80页
    查看更多>>摘要:深度神经网络因具有优良的非线性映射能力和在不同场景下的灵活性而成为一种很有前景的聚类方法。为了得到易于聚类的特征,许多深度聚类方法从原始数据中提取特征是通过将原始数据映射到一个更低维的空间方式,而聚类指派依然假设是在欧式空间进行。为了探究特征提取和流形空间对聚类性能的影响,本文提出了一种基于变分自编码器与流形特征的聚类算法——MFVC(Clustering Algorithm Based on Variational Autoencoder and Manifold Features)。该方法通过具有残差连接层及无参数注意力机制SimAM(A Simple,Parameter-Free Attention Module for Convolutional Neural Networks)组成的β-VAE(Learning Basic Visual Concepts with a Constrained Varia-tional Framework)做特征提取器提取图像特征,采用流形UMAP(Uniform Manifold Approximation and Projection for Dimension Reduction)方法提高特征的可分离性,然后用K-Means方法进行聚类学习。在6个基准数据集的实验结果表示该方法能够提供较好的性能,MFVC在MNIST(Mixed NationalInstitute of Standards and Technology da-tabase)数据集上能够达到0。981的精度,在Fashion-MNIST数据集上能够达到0。681的精度。

    变分自编码器残差连接UMAPK-Means流形学习

    基于注意力机制的语义对比学习算法

    陈俊芬吕巧莉谢博鋆孙劲松...
    81-92页
    查看更多>>摘要:对比学习中不合适的数据增强会导致语义信息的失真,同一图像在不同类型的数据增强下语义信息有巨大的语义差距;此外,卷积神经网络(CNN)对纹理有强烈偏好,无法精准学习到下游任务所需的深层语义特征表示,针对以上问题,本文提出一种基于注意力的语义对比学习方法(Semantic attention contrastive learning method,SACL)。SACL首先利用卷积神经网络提取特征,然后注意力模块挖掘全局特征,获得更高级的语义特征,实现了对低级特征的补充和深层特征的语义融合。其次使用截然不同的数据增强方式构造正负样本对,将弱增强(几何增强)生成的正样本和强增强(纹理增强)生成的负样本进行对比,获得差异更为显著的图像输入。网格化增强视图增加了正样本的个数,加快网络收敛速度。在四个数据集上验证了所提出的语义对比学习算法的有效性,结果表明在ImageNet-100数据集上平均精度可以达到78。3%,可以有效提高模型的分类准确率。

    对比学习注意力机制语义特征表示数据增强纹理网格化

    基于Stacking集成和偏探索贝叶斯优化的特征选择

    孙林郭嘉琪朱雨晨陈森...
    93-102页
    查看更多>>摘要:针对高维基因数据集的最优特征子集不易确定,以及传统的贝叶斯优化算法容易陷入局部最优,导致无法快速筛选出最优参数等问题,本文提出了一种基于Stacking集成和偏探索贝叶斯优化的基因选择方法。首先,使用卡方过滤法剔除原始特征空间中的冗余基因,获得相关性较高的基因,通过贝叶斯优化算法的采集函数进行改进,引入跳出系数,使得贝叶斯优化算法能够自适应地跳出局部最优,降低开销并加快寻优的效率;然后,使用偏探索贝叶斯优化寻找随机森林的最优参数,使用优化后随机森林模型筛选最优基因子集;最后,设计了一种Stacking集成模型框架来构建分类器,并对最优基因子集进行分类,进而构建了基于Stacking集成和偏探索贝叶斯优化的基因选择算法。在9个公开的基因表达谱数据集上进行仿真实验,结果表明所提算法可以快速筛选出最优的基因子集,且具有较高的分类精度。

    基因选择Stacking算法贝叶斯优化算法随机森林模型