首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    互联网时代分布式关系数据库的有益探索

    周傲英
    539页

    OceanBase分布式关系数据库架构与技术

    阳振坤杨传辉韩富晟王国平...
    540-554页
    查看更多>>摘要:关系数据库是当今社会的关键信息基础设施,互联网和数字化带来了高并发和海量数据,传统关系数据库均为集中式架构,处理能力和存储容量都捉襟见肘.OceanBase分布式关系数据库基于通用PC服务器,不仅实现了在线水平伸缩,还实现了机房故障自动无损容灾以及高倍率数据压缩等,已经应用于金融、政务、通信和互联网等行业.介绍了OceanBase分布式关系数据库的系统架构和关键技术,包括分布式事务处理、基于LSM-tree的存储系统以及分布式SQL优化器.详细阐述了OceanBase数据库的高可用和数据一致性,包括RPO为 0和RTO小于 8s.也介绍了OceanBase数据库多租户机制,即采用了集群内原生多租户设计,在集群内实现多个互相独立的数据库服务.基于Sysbench和TPC-H评测基准,对比实验结果表明:1)在单机模式下,OceanBase的性能是 MySQL的 1.27倍至 2倍多;2)在单主模式下,OceanBase的性能是MySQL的 1.25倍至近 2倍;3)在多主模式下,OceanBase的性能是MySQL的 1.09倍至3.1倍,对于OLAP的复杂查询,OceanBase的性能是MySQL的6倍到327倍.

    关系数据库分布式事务基于LSM-tree存储分布式SQL优化器多租户

    前言

    舒继武王意洁
    555-556页

    基于超低延迟SSD的页交换机制关键技术

    王紫芮蒋德钧
    557-570页
    查看更多>>摘要:随着内存密集型应用的快速发展,应用对单机内存容量的需求日益增大.然而,受到颗粒密度的限制,内存容量的扩展度较低.页交换机制是进行内存扩展的经典技术,该机制通过将较少使用的内存页面暂存在存储设备,以达到扩展内存的目的.过去页交换机制由于慢速磁盘的读写速度限制,无法被广泛应用.近年来,得益于超低延迟固态硬盘(solid state drive,SSD)的快速发展,页交换机制可以利用其低延迟的读写特性,提升页交换效率.然而,在低I/O延迟的情况下,传统页交换机制的I/O栈存在巨大的软件开销.首先对使用超低延迟SSD的Linux页交换机制进行测试与分析,发现现有页交换机制的主要瓶颈在于发送请求时存在队头阻塞问题、I/O合并和调度开销,以及内核返回路径上的中断处理和直接内存回收开销.基于分析结果,提出基于超低延迟SSD的页交换机制Ultraswap.Ultraswap在Linux I/O栈的基础上增加对轮询请求的处理,并降低I/O合并与调度开销,实现轻量级的I/O栈.基于Ultraswap的I/O栈,对内核页交换机制的换入与换出路径进一步优化.通过优化对缺页、直接内存回收的处理,降低页交换机制关键路径上的时间开销.实验结果表明Ultraswap在应用测试场景下相比Linux页交换机制能够提升 19%的平均性能;在可使用内存比例为20%的情况下,Ultraswap可达到33%的性能提升.

    页交换I/O栈超低延迟SSD轮询NVMeSSD

    面向存算联调的跨云纠删码自适应数据访问方法

    张凯鑫王意洁包涵阚浚晖...
    571-588页
    查看更多>>摘要:日益旺盛的跨云存算联调需求对跨云数据访问速度提出较高要求.因此,跨云数据访问速度较高的基于数据冗余技术(纠删码和多副本)的跨云数据访问方法逐渐受到关注.其中,基于纠删码的跨云数据访问方法因其存储开销较低、容错性较高而成为当前研究热点.为通过缩短编码块传输用时以提高数据访问速度,现有基于纠删码的跨云数据访问方法尝试引入缓存技术并优化编码数据访问方案.然而,由于现有方法的缓存管理粒度较粗且未协同优化缓存管理与编码数据访问方案,导致其存在缓存命中量低、缓存命中增效低、低传输速度编码块访问量大等问题,使得其编码块传输用时仍较长.为此,首先提出了一种基于星际文件系统(interplanetary file system,IPFS)的跨云存储系统框架(IPFS-based cross-cloud storage system framework,IBCS),可基于IPFS数据分片管理机制实现细粒度的缓存管理,从而可提高缓存命中量.然后,提出一种面向存算联调的跨云纠删码自适应数据访问方法(adaptive erasure-coded data access method for cross-cloud collaborative scheduling of storage and computation,AECAM).AECAM以编码块(含缓存编码块)与数据访问节点的分布为依据评估数据访问过程中各编码块的传输速度,并据此制定可避免访问低传输速度编码块的编码数据访问方案.此外,AECAM可识别出其制定编码数据访问方案时易选中且实际传输速度较低的编码块,并将其缓存在数据访问节点附近,从而可同时提高缓存命中量和命中增效.最后,基于IBCS和AECAM构建了面向跨云存算联调的存储系统(cross-cloud storage system for collaborative scheduling of storage and computation,C2S2).跨云环境下的实验表明,相较于现有引入缓存的基于纠删码的存储系统,C2S2可以将数据访问速度提高75.22%~81.29%.

    跨云存算联调纠删码数据访问技术星际文件系统缓存

    基于GPU直访存储架构的推荐模型预估系统

    谢旻晖陆游游冯杨洋舒继武...
    589-599页
    查看更多>>摘要:新型深度学习推荐模型已广泛应用至现代推荐系统,其独有的特征——包含万亿嵌入参数的嵌入层,带来的大量不规则稀疏访问已成为模型预估的性能瓶颈.然而,现有的推荐模型预估系统依赖CPU对内存、外存等存储资源上的嵌入参数进行访问,存在着CPU-GPU通信开销大和额外的内存拷贝 2个问题,这增加了嵌入层的访存延迟,进而损害模型预估的性能.提出了一种基于GPU直访存储架构的推荐模型预估系统GDRec.GDRec的核心思想是在嵌入参数的访问路径上移除CPU参与,由GPU通过零拷贝的方式高效直访内外存资源.对于内存直访,GDRec利用统一计算设备架构(compute unified device architecture,CUDA)提供的统一虚拟地址特性,实现GPU核心函数(kernel)对主机内存的细粒度访问,并引入访问合并与访问对齐 2个机制充分优化访存性能;对于外存直访,GDRec实现了一个轻量的固态硬盘(solid state disk,SSD)驱动程序,允许GPU从SSD中直接读取数据至显存,避免内存上的额外拷贝,GDRec还利用GPU的并行性缩短提交I/O请求的时间.在 3个点击率预估数据集上的实验表明,GDRec在性能上优于高度优化后的基于CPU访存架构的系统NVIDIA HugeCTR,可以提升多达1.9倍的吞吐量.

    GPU直访存储参数存储推荐系统预估系统存储系统

    一种基于深度学习的微服务性能异常检测方法

    方浩天李春花王清周可...
    600-613页
    查看更多>>摘要:微服务架构因具有良好的可扩展性和可维护性越来越受到云应用软件的青睐.与此同时,微服务之间复杂的交互使得系统的性能异常检测变得更加困难.现有的微服务性能异常检测方法均不能很好地建立跨不同调用路径的微服务及其对应的响应时间之间的复杂关系,导致异常检测准确率不高、根因定位不准确.提出了一种基于Transformer的微服务性能异常检测与根因定位方法TTEDA(Transformer trace explore data analysis).首先将调用链构建为微服务调用序列和对应的响应时间序列,然后借助自注意力机制捕捉微服务之间的调用关系,并通过编码器-解码器建立微服务的响应时间与其调用路径之间的关联关系,从而获得微服务在不同的调用链上的正常响应时间分布.基于学习到的正常模式判断调用链的异常,并可将异常精确到微服务级别.进一步地,利用微服务之间的调用关系以及异常的传播方式,对出现性能异常的微服务进行反向拓扑排序,实现了准确快速的根因定位.在开源基准微服务系统Train-Ticket的数据集和AIops挑战赛数据集评估了TTEDA的有效性,相比于同类异常检测方法AEVB,Multi-LSTM,TraceAnomaly,精确率平均提高了 48.6%,30.2%,3.5%,召回率平均提高了 34.7%,1.1%,4.1%.相比于根因定位算法MonitorRank和TraceAnomaly,根因定位的准确率分别提高了35.4个百分点和6.1个百分点.

    微服务异常检测根因定位调用链Transformer

    时序数据库关键技术综述

    刘帅乔颖罗雄飞赵怡婧...
    614-638页
    查看更多>>摘要:随着工业物联网(industrial Internet of things,IIoT)的不断发展,越来越多的设备和传感器开始连接到网络中,产生了大量的时间序列数据(简称"时序数据"),时序数据爆炸式的增长给数据库管理系统带来了新的挑战:持续高吞吐量数据摄取、低延迟多维度数据查询、高性能时间序列索引以及低成本数据存储.近年来时序数据库技术已经成为一个研究热点,一些学者对时序数据库技术进行了深入的研究,同时出现了一些专门用于管理时序数据的时序数据库,并且已经被应用在多个领域,成为工业物联网中不可缺少的关键组成.现有的时序数据库相关综述侧重于时序数据库的功能和性能比较,以及在特定领域中对时序数据库的选择建议,缺少对时序数据库持久化存储、查询、计算和索引等关键技术的研究,同时这些综述工作出现的时间较早,缺少对现代时序数据库关键技术的研究.对学术界时序数据存储研究和工业界时序数据库进行了全面的调查和研究,凝练了时序数据库的 4类关键技术:1)时间序列索引优化技术;2)内存数据组织技术;3)高吞吐量数据摄取和低延迟数据查询技术;4)海量历史数据低成本存储技术.同时分析总结了时序数据库评测基准.最后,展望了时序数据库关键技术在未来的发展方向.

    工业物联网时序数据时序数据库时序数据压缩时序数据存储

    视频问答技术研究进展

    包翠竹丁凯董建峰杨勋...
    639-673页
    查看更多>>摘要:视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的 4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路.

    视频问答注意力记忆网络循环神经网络图网络模型预训练模型

    DL-MAML:一种新的蝴蝶物种自动识别模型

    赵戈伟许升全谢娟英
    674-684页
    查看更多>>摘要:蝴蝶种类成千上万,每种蝴蝶都与一定植物密切相关,研究蝴蝶种类自动识别有重要意义.野外环境下的蝴蝶物种识别研究受制于现有数据集蝴蝶种类较少,每类样本(图像)数量较少,使基于机器学习的蝴蝶种类识别面临泛化推广难的挑战.另外,野外环境下的蝴蝶翅膀遮挡使分类特征学习面临挑战.因此,提出基于元学习的蝴蝶物种自动识别新模型DL-MAML(deep learning advanced model-agnostic meta-learning),实现野外环境下的任意蝴蝶种类识别.首先,DL-MAML模型采用L2正则改进经典元学习算法MAML(model-agnostic meta-learning)的目标函数和模型参数更新方法,并对MAML增加了 2层特征学习模块,避免模型陷入过拟合风险,解决现有野外环境下蝴蝶物种识别面临的泛化推广困难;其次,采用ResNet34深度学习模型提取蝴蝶分类特征,对图像进行表征预处理,作为DL-MAML模型元学习模块的输入,克服其特征提取不足的缺陷,以及野外环境下蝴蝶翅膀遮挡带来的分类特征学习困难.大量消融实验以及与同类模型的实验比较表明,DL-MAML算法学习获得的初始模型参数对蝴蝶新类识别具有很好的效果,优于MAML和其他同类模型,对野外环境下的蝴蝶种类识别很有效,使利用现有野外环境下的蝴蝶数据集构造通用且完全的蝴蝶物种识别系统成为可能.

    蝴蝶分类深度学习特征提取元学习MAML算法