首页期刊导航|计算机工程
期刊信息/Journal information
计算机工程
华东计算技术研究所 上海市计算机学会
计算机工程

华东计算技术研究所 上海市计算机学会

游小明

月刊

1000-3428

hdsce@sohu265359.sohuvip.net

021-54972331

200233

上海市桂林路418号

计算机工程/Journal Computer EngineeringCSCD北大核心CSTPCD
查看更多>>本刊是中国电子科技集团公司第三十二研究所(华东计算技术研究所)主办的学术性刊物,是上海市计算机学会会刊。主要特点:以最快的速度、科学求实的精神,精选刊登代表计算机行业前沿科研、技术、工程方面的高、精、尖优秀论文。贯彻党的“双百”方针,繁荣科技创作,促进国内外学术交流,探讨和传播计算机科学的理论和实践,加速和促进我国计算机事业的发展。
正式出版
收录年代

    适用于S-NUCA异构处理器的任务调度与热管理系统

    周义涛李阳韩超赵玉来...
    196-205页
    查看更多>>摘要:异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。

    异构多核处理器人工神经网络线程调度阶段检测热安全功率

    面向DCU的LDS访存向量化优化

    杨思驰赵荣彩韩林王洪生...
    206-213页
    查看更多>>摘要:在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22。6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。

    深度计算器本地数据共享访存向量化访存特征bank冲突

    艾灸机器人系统设计与实现

    马蓓蓓胡志刚时鹏王新征...
    214-223页
    查看更多>>摘要:传统的人工艾灸方式存在温度不均衡、耗费人力、治疗效果差异大等问题,结合机器人技术,提出一种新型艾灸机器人系统,以减轻医师的劳动强度并提高治疗效率。采用主从双边结构设计,主要由从端的艾灸器、机械臂和主端构成。通过对从端艾灸器的自动推进装置、硬件电路和通信流程的改进设计,实现艾灸过程中艾条的自动推进以及温度、距离等信息的实时采集和传输。主端系统对从端传输的信息进行整合处理,并对机械臂进行轨迹规划和运动控制,以优化艾灸路径和动态调整施灸距离。此外,主端的人机交互界面能够实时显示艾灸过程中的信息和从端的工作状态,实现艾灸过程的可视化。医师可通过该可视化界面灵活调节艾灸参数和远程控制机器人进行艾灸,以满足不同的艾灸对象、环境和任务需求。实验结果表明,该艾灸机器人系统能够在真实环境中使机械臂按照自动规划的路径运行,动态调控艾条燃烧端到人体穴位的距离,保持目标穴位的温度偏差小于0。5℃,运行过程平稳,满足安全且精准的艾灸治疗要求。

    人机交互艾灸机器人双边控制系统艾灸器轨迹规划

    基于FPGA的软硬件协同纠删码编码加速方案

    杨思捷陈俊奇王勇李树林...
    224-231页
    查看更多>>摘要:纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问题,提出一种基于现场可编程门列阵(FPGA)的纠删码编码加速方案。首先,利用FPGA的高速并行计算优势对纠删码算法进行硬件加速,并实现并行处理和时序优化。然后,针对上位机与FPGA之间因传输速率和处理速率不一致造成内存中的数据溢出问题,在FPGA上拓展了片外DDR3接口用于数据缓存,提高了通信可靠性,并利用DDR3的随机存取特点实现对数据块的分片。最后,设计基于FPGA的纠删码编码硬件加速架构进行实验验证。实验结果表明,与主流Jerasure 2。0开源纠删码库相比,该方案的数据写入吞吐量提升了2。7~93。0倍,尤其对于小文件的编码写入性能提升更为显著。

    纠删码现场可编程门阵列硬件加速分布式存储模块化设计

    基于GPU的LBM迁移模块算法优化

    黄斌柳安军潘景山田敏...
    232-238页
    查看更多>>摘要:格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1。3×108规模网格下能达到1。92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。

    高性能计算格子玻尔兹曼方法图形处理器并行优化数据重排

    基于多层次自注意力网络的人脸特征点检测

    徐浩宸刘满华
    239-246页
    查看更多>>摘要:人脸特征点检测是人脸图像处理的关键步骤之一,常用检测方法是基于深度神经网络的坐标回归方法,具有处理速度快的优点,但是用于回归的高层次网络特征丢失空间结构信息,且缺乏细粒度表征能力,导致检测精度降低。针对该问题,提出一种基于多层次自注意力网络的人脸关键点检测算法。为提取更具有细粒度表征能力的图像语义特征,构建基于自注意力机制的多层次特征融合模块,实现高层次高语义信息特征和低层次高空间信息特征的跨层次特征融合。在此基础上,设计一种多任务学习人脸特征点检测定位与人脸姿态角估计的训练方式,优化网络对人脸整体朝向姿态的估计,以提升特征点检测的准确性。在人脸特征点主流数据集300W和WFLW上的实验结果表明,与SAAT、AnchorFace等方法相比,该方法有效提升网络的检测精度,标准平均误差指标分别为3。23%和4。55%,相较于基线模型降低0。37和0。59个百分点,在WFLW数据集上错误率指标为3。56%,相较于基线模型降低了2。86个百分点,能够提取更具鲁棒性和细粒度的表达特征。

    人脸特征点检测卷积神经网络自注意力机制特征融合多任务学习深度学习

    融合门控变换机制和GAN的低光照图像增强方法

    何银银胡静陈志泊张荣国...
    247-255页
    查看更多>>摘要:针对低光照图像增强过程中存在的配对图像数据依赖、细节损失严重和噪声放大问题,提出结合门控通道变换机制和生成对抗网络(GAN)的低光照图像增强方法AGR-GAN,该方法可以在没有低/正常光图像对的情况下进行训练。首先,设计特征提取网络,该网络由多个基于门控通道变换单元的多尺度卷积残差模块构成,以提取输入图像的全局上下文特征和多尺度局部特征信息;然后,在特征融合网络中,采用卷积残差结构将提取的深浅层特征进行充分融合,再引入横向跳跃连接结构,最大程度保留细节特征信息,获得最终的增强图像;最后,引入联合损失函数指导网络训练过程,抑制图像噪声,使增强图像色彩更自然匀称。实验结果表明,该方法在主观视觉分析和客观指标评价方面相较其他算法均具有显著优势,其能有效提高低光照图像的亮度和对比度,减弱图像噪声,增强后的图像更清晰且色彩更真实,峰值信噪比、结构相似度和无参考图像质量评价指标平均可达 16。48 dB、0。93和3。37。

    低光照图像增强卷积残差结构门控通道变换单元无监督学习生成对抗网络

    引入轻量级Transformer的自适应窗口立体匹配算法

    王正家胡飞飞张成娟雷卓...
    256-265页
    查看更多>>摘要:现有端到端的立体匹配算法为了减轻显存消耗和计算量而预设固定视差范围,在匹配精度和运行效率上难以平衡。提出一种基于轻量化Transformer的自适应窗口立体匹配算法。利用具有线性复杂度的坐标注意力层对低分辨率特征图进行位置编码,减轻计算量并增强相似特征的辨别力;设计轻量化Transformer特征描述模块,转换上下文相关的特征,并引入可分离多头自注意力层对Transformer进行轻量化改进,降低Transformer的延迟性;用可微匹配层对特征进行匹配,设计自适应窗口匹配细化模块进行亚像素级的匹配细化,在提高匹配精度的同时减少显存消耗;经视差回归后生成无视差范围的视差图。在KITTI2015、KITTI2012和SceneFlow数据集上的对比实验表明,该算法比基于标准Transformer的STTR在匹配效率上快了近4。7倍,具有更快的运行速度和更友好的存储性能;比基于3D卷积的PSMNet误匹配率降低了18%,运行时间快了5倍,实现了更好的速度和精度的平衡。

    立体匹配Transformer自适应窗口可分离自注意力机制坐标注意力

    基于潜在特征增强网络的视频描述生成方法

    李伟健胡慧君
    266-272页
    查看更多>>摘要:视频描述生成旨在用自然语言描述视频中的物体及其相互作用。现有方法未充分利用视频中的时空语义信息,限制了模型生成准确描述语句的能力。为此,提出一种用于视频描述生成的潜在特征增强网络(LFAN)模型。利用不同的特征提取器提取外观特征、运动特征和目标特征,将对象级的目标特征分别和帧级的外观特征与运动特征融合,同时对融合后的不同特征进行增强,在生成描述前利用图神经网络和长短时记忆网络推理对象之间的时空关系,从而得到具有时空信息和语义信息的潜在特征,同时使用长短时记忆网络和门控循环单元的解码器生成视频的描述语句。该网络模型能够准确地学习到对象特征,进而引导生成更准确的词汇及与对象之间的关系。在MSVD和MSR-VTT数据集上的实验结果表明,LFAN模型可以显著提高生成描述语句的准确性,并与视频中的内容呈现出更好的语义一致性,在MSVD数据集上的BLEU@4和ROUGE-L分数分别为57。0和74。1,在MSR-VTT数据集上分别为43。8和62。1。

    视频描述生成潜在特征增强网络时空语义信息图神经网络特征融合

    基于先验驱动深度神经网络的泊松去噪变分模型

    李倩魏伟波杨光宇宋金涛...
    273-280页
    查看更多>>摘要:泊松去噪是一个典型的病态逆问题,其变分模型需要反复迭代和调节参数且计算效率低下,而纯深度学习模型往往依据经验设计网络且可解释性差。针对以上问题,在泊松噪声去噪变分模型的交替方向乘子法展开的基础上,设计端到端深度卷积神经网络,结合泊松噪声分布统计量与Bayesian最大后验概率估计推导出改进的泊松去噪变分模型。为了求解泊松去噪能量函数极值问题,采用交替方向乘子法,引入辅助变量、拉格朗日乘子和惩罚参数,将该问题分解为高斯去噪和图像重建两类交替优化子问题,先采用先验驱动的深度卷积神经网络实现高斯去噪,再通过解析迭代求解完成图像重建。实验结果表明,与基于非线性主成分分析、VST+BM3D、I+VST+BM3D和TRDPD的泊松去噪模型相比,改进模型在Set12数据集上的峰值信噪比均值分别提高2。73、0。87、0。57和0。50 dB,结构相似性均值分别提高0。148、0。046、0。020和0。047,在彩色图像及正电子发射断层扫描与计算机断层扫描图像上也明显提升了泊松去噪效果。上述实验结果证明了改进模型不仅有效去除了泊松噪声,而且避免了泊松去噪过程中产生的伪影和散斑等问题。

    泊松去噪卷积神经网络去噪先验变分模型交替方向乘子法