期刊,计算机科学 2024年卷4期_国家学术搜索

期刊信息/Journal information

计算机科学

主　　编：朱完元

出版周期：月刊

国际刊号：1002-137X

电子邮箱：jsjkx12@163.com

电　　话：023-63500828

邮政编码：401121

地　　址：重庆市渝北区洪湖西路18号

计算机科学/Journal Computer ScienceCSCD北大核心CSTPCD

查看更多>>本刊的读者对象是：大专院校师生，从事计算机科学与技术领域的科研、生产人员。办刊宗旨是：坚持“双百”方针，活跃计算机科学与技术领域的学术气氛，重点报导国内外计算机科学与技术的发展动态，为我国的计算机科学与技术立于世界之林、达到国际先进水平奋斗而矢志不渝。

正式出版

收录年代

紧凑数据结构专题序言

郑嘉琦谢鲲杨仝黄河...

1-3页

原文链接:

NETL
NSTL
万方数据

IntervalSketch:面向数据流的间隔项近似统计方法

陈昕杨陈翰泽周嘉晟黄家卿...

4-10页

查看更多>>摘要：流式数据库在数据库中的占比逐渐增加,在流式数据库的数据流中提取所需信息是一项重要任务.文中研究了数据流的间隔项,并将其应用到了网络场景中.其中间隔项指在数据流中以固定时间间隔到达的元素对,这是第一项在数据流中定义和统计间隔项的工作.为了高效统计间隔项的top-K,提出了 IntervalSketch.IntervalSketch首先基于模拟退火对数据流分块以加快统计速度,其次利用Sketch进行间隔项的存储,最后通过特征分组存储策略降低Sketch存储间隔项的空间开销,提升了统计间隔项的精度.IntervalSketch在两个真实数据集上进行了大量对比实验,实验结果表明,在同样内存的情况下,Inter-valSketch 明显优于基线方案,其中处理时间为基线方案的1/3～1/2,平均绝对误差、平均相对误差约为基线方案的1/3.

关键词：

Sketch数据库数据挖掘

原文链接:

NETL
NSTL
万方数据

基于MapReduce的大规模网络社区发现算法

王瀚橙戴海鹏陈志鹏陈树森...

11-18页

查看更多>>摘要：社区发现是社会网络挖掘领域的基本问题.随着海量数据的迅速产生,传统社区发现算法愈发难以处理大规模社会网络.因此,针对大规模网络设计高效的社区发现算法意义重大.文中提出了一种基于MapReduce和k中心聚类的新型分布式算法.首先,该算法提出"朋友圈系数"技术,该技术可更加准确地度量结点间的距离.其次,该算法提出"两阶段k中心聚类"技术,该技术在选取中心点过程中融入结点中心度启发式信息,可显著优化输出结果的模块度.最后,该算法提出"以模块度为优化目标的社区融合"技术,该技术能够在无先验知识的前提下自动确定网络中的社区数目.实验结果表明,所提算法的社区发现结果模块度明显优于最先进的社区发现算法.例如,相比LPA算法,其将模块度平均提升9.19倍.

关键词：

社区发现k中心聚类分布式计算数据挖掘大数据

原文链接:

NETL
NSTL
万方数据

数据质量测量框架研究及领域测量框架构建

宋金玉陈连勇陈刚

19-27页

查看更多>>摘要：为激活数据质量潜能,构建兼顾信息环境与技术实现的数据质量测量框架,以提升数据挖掘和指挥决策的效用,文中从宏观层面和微观层面对现有的通用型、行业型数据质量测量框架进行梳理、研究,对数据质量维度进行"聚类",得到数据质量维度类簇,提取了数据质量维度的两类特性,提出面向具体领域的数据质量测量框架构建准则.基于管理领域工作对数据质量的测量需求,结合构建准则构建了面向管理领域的数据质量测量框架,并明确了框架的数据质量维度、测量指标、测量方法等.

关键词：

数据质量数据质量维度数据质量测量数据质量测量框架

原文链接:

NETL
NSTL
万方数据

分布式网络中连续时间周期的全局top-K频繁流测量

毛晨宇黄河孙玉娥杜扬...

28-38页

查看更多>>摘要：在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要.现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限.为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节点中布置了紧凑的概率数据结构来记录网络流信息,每个时间周期结束后分布节点向中心节点发送必要信息,中心节点汇聚得到从测量开始至当前时间周期的全局top-K频繁流.考虑到每条流可能出现在一个或多个测量节点,使用了不同的方法来减少传输开销.对于每条流只会出现在单一节点的情况,采用传输分段最小值的方法来获得阈值,实验结果表明这种方法减少了全量传输超过50％的传输开销.对于每条流会出现在多个节点的情况,提出了多阶段无误差处理方法和单阶段快速处理方法,分别应对不能容忍误差的场景和实际高速网络流量,相比每个时间周期都使用已有单周期方法,传输开销的实验表现降低了两个数量级.最后还提出了一种利用历史平均增值信息降低通信延迟的方法,实验结果表明该方法有效降低了限制信息的平均相对误差.

关键词：

流量测量top-K频繁流分布式网络连续时间周期sketch

原文链接:

NETL
NSTL
万方数据

一种基于部分数据的多级剪枝Obfs4混淆流量识别方法

徐宸涵黄河孙玉娥杜扬...

39-47页

查看更多>>摘要：Obfs4混淆流量是匿名通信网络Tor的一种承载流量,因其强匿名的特性而被滥用于非法网络活动,因此识别Obfs4混淆流量对预防利用Tor网络进行的网络犯罪具有重要作用.现有识别策略往往侧重于分析Obfs4流量特征,将完整流样本利用机器学习或深度学习技术进行精细化识别,但处于在线流识别的应用场景下时间开销偏高,且识别准确度在O b fs 4应用间隔到达时间反检测技术(Inter-arrival Timing,I AT)后有所下降.为此,提出了一种基于部分数据的多级剪枝Obfs4混淆流量识别方法,仅收集每个流最先到达的少量数据包进行多轮快速过滤,并重点针对IAT模式特性设计识别方法,提升了 Obfs4流量识别的效率和鲁棒性.该方法将识别过程分为握手阶段和加密通信阶段.在握手阶段,充分挖掘Obfs4握手数据包的隐含语义,进行随机性、时序和长度分布特征的粗粒度快速剪枝;在加密通信阶段,先对每个流的前若干数据包进行特征提取,并提高IAT相关特征的权重,最后利用XGBoost分类方法进行细粒度识别.实验结果表明,在包括了应用IAT技术的混淆流量的数据集上,使用流的前30～50个数据包能达到99％的正确率和精确度,平均每条流的处理时间在毫秒级.

关键词：

Obfs4混淆流量识别多级剪枝间隔到达时间反检测极致梯度提升

原文链接:

NETL
NSTL
万方数据

RBFRadar:基于可编程数据平面检测价值突发流

吴艳妮周政演陈翰泽张栋...

48-55页

查看更多>>摘要：在各种网络流量中,突发是一种常见且重要的流量模式.突发会增大网络时延并影响应用性能,因此对突发流的检测、分析和缓解对于提升网络性能和鲁棒性是有意义的.然而,当前基于逐次突发的检测方案存在显著的带宽开销和高用户负担问题.文中通过观察并分析多个场景下的突发流量特征,提出了价值突发流(Remarkable Burst Flow,RBF)检测,在降低带宽开销的同时,减少了传统突发检测中的密集手工劳动和专家经验要求,减轻了网络管理者的负担.RBFRadar是基于Sketch数据结构的框架,支持可编程数据平面上的RBF检测,在一段时间内观察流级别的突发性.该框架仅产生有限的内存占用和低时间复杂性,其原型可在PISA架构上实现.实验结果表明,在检测RBF的准确性方面,RBFRadar的F1分数是现有方案的5.6～23.4倍;在带宽开销方面,与基于逐次突发的检测方案相比,RBFRadar可降低84.62％～98.84％的带宽开销.

关键词：

突发流检测Sketch网络测量可编程数据平面数据中心网络

原文链接:

NETL
NSTL
万方数据

天气预报模型WRF中复杂Stencil性能优化

邸健强袁良张云泉张思佳...

56-66页

查看更多>>摘要：天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用.Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上的复杂Stencil计算,存在多维度、多变量、物理模型边界特殊性、物理和动力学过程的复杂性等模型特征.文中深入剖析了 WRF中典型的Stencil计算模式,识别抽象出典型Stencil循环中存在的"中间变量"概念,围绕其设计实现了 3种优化方案,即中间变量计算合并、中间变量降维存储以及中间变量提取,有效提高了数据局部性,改善了数据重用率和空间复用率,降低了冗余计算和访存开销.结果表明,经优化方案重构的WRF 4.2典型Stencil热点函数在Intel CPU和Hygon CPU上均可获得良好的性能加速,最高加速比达21.3％和17.8％.

关键词：

WRFStencil计算中间变量优化方案数据局部性热点函数性能加速

原文链接:

NETL
NSTL
万方数据

基于国产DCU异构平台的图匹配算法移植与优化

郝萌田雪洋鲁刚钊刘义...

67-77页

查看更多>>摘要：子图匹配是一种基础的图算法,被广泛应用于社交网络、图神经网络等众多领域.随着图数据规模的增长,人们迫切需要高效的子图匹配算法.GENEVA是一种基于GPU的并行子图匹配算法,其利用区间索引的图存储结构和并行匹配优化方法,能够大幅度减少存储开销,提升子图匹配性能.但由于平台底层硬件架构和编译环境的不同,GENEVA无法直接应用到国产DCU异构平台.为了解决该问题,提出了 GENEVA面向国产DCU的移植和优化方案.IO时间开销是GENEVA算法主要的性能瓶颈,文中采用锁页内存、预加载、调度器3种优化策略来突破该瓶颈.其中,锁页内存技术避免了从可分页内存到临时锁页内存的额外数据传输,在DCU平台上大幅度减少了 IO传输的时间开销;预加载技术将IO数据传输与DCU核函数计算重叠,掩盖了 IO时间开销;调度器在满足预加载需求的同时,减少了冗余数据的传输.在3个不同规模的真实数据集上进行实验,结果表明,采用优化策略后算法性能显著提高.在92.6％的测试用例上,经过优化的GENEVA-HIP算法在国产DCU平台的执行时间比移植前的GENEVA算法在GPU服务器的执行时间短.在较大规模的数据集上,优化的GENEVA-HIP算法在DCU平台上的执行时间相比移植前的GENEVA算法在GPU服务器的执行时间减少了 52.73％.

关键词：

子图匹配DCU异构平台HIP移植和优化

原文链接:

NETL
NSTL
万方数据

一种基于指令MKS的自动向量化代价模型

王震聂凯韩林

78-85页

查看更多>>摘要：自动向量化代价模型是编译器进行自动向量化优化时的重要组成部分,其作用是评估代码在应用向量化转换后能否获得性能提升.当代价模型不准确时,编译器会应用负收益的向量化转换,从而降低程序的执行效率.针对GCC编译器默认代价模型的不精确问题,以Intel Xeon Silver 4214R CPU为平台,提出了一种基于指令MKS的自动向量化代价模型.该模型充分考虑了指令的机器模式、运算类型以及运算强度等,并使用梯度下降算法自动搜索不同指令类型的近似代价.在SPEC2006以及SPEC2017上进行了单线程测试,实验结果表明,该模型能够减少收益评估错误的情况.与默认代价模型生成的向量程序相比,GCC编译器添加MKS代价模型后,在SPEC2006课题上最高获得了 4.72％的提速,在SPEC2017课题上最高获得了 7.08％的提速.

关键词：

GCC编译器自动向量化代价模型收益评估梯度下降

原文链接:

NETL
NSTL
万方数据