首页期刊导航|计算机研究与发展
期刊信息/Journal information
计算机研究与发展
计算机研究与发展

徐志伟

月刊

1000-1239

crad@ict.ac.cn

010-62620696;62600350

100190

北京中关村科学院南路6号

计算机研究与发展/Journal Journal of Computer Research and DevelopmentCSCD北大核心CSTPCDEI
查看更多>>本刊是中国科学院计算技术研究所和中国计算机学会联合主办、科学出版社出版的学术性刊物、中国计算机学会会刊,我国第一个计算机刊物。主要刊登计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。
正式出版
收录年代

    基于区块链的数据透明化:问题与挑战

    孟小峰刘立新
    235-252页
    查看更多>>摘要:物联网、穿戴设备和移动通信等技术的高速发展促使数据源源不断地产生并汇聚至多方数据收集者,由此带来更严峻的隐私泄露问题,然而传统的差分隐私、加密和匿名等隐私保护技术还不足以应对更进一步,数据的自主汇聚导致数据垄断问题,严重影响了大数据价值实现.此外,大数据决策过程中,数据非真实产生、被篡改和质量管理过程中的单点失败等问题导致数据决策不可信.如何使这些问题得到有效治理,使数据被正确和规范地使用是大数据发展面临的主要挑战.首先,提出数据透明化的概念和研究框架,旨在增加大数据价值实现过程的透明性,从而为上述问题提供解决方案.然后,指出数据透明化的实现需求与区块链的特性天然契合,并对目前基于区块链的数据透明化研究现状进行总结最后,对基于区块链的数据透明化可能面临的挑战进行分析.

    区块链问责隐私保护数据垄断数据驱动的决策

    基于社会新闻数据集的伦理行为判别方法

    古天龙冯旋李龙包旭光...
    253-263页
    查看更多>>摘要:人工智能(artificial intelligence,AI)应用的伦理风险和挑战引起了人们的普遍关注,如何从技术实现角度开发出遵守人类价值观和伦理规范的AI系统,即,符合伦理的AI设计,是亟需解决的重要问题之一基于机器学习的伦理与道德判别是此方面的有益探索社会新闻数据具有丰富的伦理和道德的内容及知识,为机器学习的训练数据开发提供了可能.鉴于此,本文构建了具有人类行为伦理和道德属性的社会新闻数据集,附之以法律与行为规范数据集,用以机器学习的训练和测试;建立了基于使用信息实体的增强语言表示(enhanced language representation of information entities,ERNIE)和卷积神经网络(convolutional neural network,CNN)的伦理行为判别模型ERNIE-CNN,通过词的向量表示计算语义相似度来提取关于行为的伦理判断.实验结果表明,提出的模型具有比基准模型更好的性能,验证了方法和模型的有效性.

    社会新闻数据集符合伦理的设计深度学习ERNIECNN

    面向深度学习的公平性研究综述

    陈晋音陈奕芃陈一鸣郑海斌...
    264-280页
    查看更多>>摘要:深度学习是机器学习研究中的一个重要领域,它具有强大的特征提取能力,且在许多应用中表现出先进的性能,因此在工业界中被广泛应用然而,由于训练数据标注和模型设计存在偏见,现有的研究表明深度学习在某些应用中可能会强化人类的偏见和歧视,导致决策过程中的不公平现象产生,从而对个人和社会产生潜在的负面影响.为提高深度学习的应用可靠性、推动其在公平领域的发展,针对已有的研究工作,从数据和模型2方面出发,综述了深度学习应用中的偏见来源、针对不同类型偏见的去偏方法、评估去偏效果的公平性评价指标、以及目前主流的去偏平台,最后总结现有公平性研究领域存在的开放问题以及未来的发展趋势.

    深度学习算法公平性去偏方法公平性指标机器学习

    一种基于区块链的泛用型数据隐私保护的安全多方计算协议

    刘峰杨杰李志斌齐佳音...
    281-290页
    查看更多>>摘要:近年来,如何合理有效地在区块链上实现用户隐私数据保护是区块链技术领域的一个关键性问题针对此问题,设计出一种基于Pedersen承诺与Schnorr协议的安全多方计算协议(protocol of blockchain based on Pedersen commitment linked Schnorr protocol for multi-party computation,BPLSM)通过构筑该协议架构并进行形式化证明演算,表明了该协议能够融入区块链网络、能够在匿名情况下合并不同隐私消息并进行高效签署的特点此外分析了协议的性质与安全性,证明了在区块链中应用BPLSM协议的泛用型隐私计算方案计算上的低算力开销,并具备良好的信息隐蔽性最后对协议进行实验仿真,结果表明:在小范围人数固定的多方计算中,BPLSM协议验签的时间成本比当前主流的BLS签名节省约83 5%.

    区块链隐私计算安全多方计算Pedersen承诺Schnorr签名BLS签名

    基于多级网络编码的多副本云数据存储

    徐光伟史春红冯向阳罗辛...
    291-304页
    查看更多>>摘要:云数据存储的快速发展对数据的可用性提出了较高要求.目前,主要采用纠删码计算数据编码块进行分布式冗余数据存储来保证数据的可用性.虽然这种数据编码技术保证了存储数据的安全性并减少了额外的存储空间,但在损坏数据恢复时会产生较大的计算和通信开销提出一种基于多级网络编码的多副本生成和损坏数据恢复算法算法基于多级网络编码对纠删码的编码矩阵进行改进形成多级编码矩阵,利用其级联性生成多级编码(hierarchical coding,HC码)来构成多副本数据,使得各副本之间存在编码关系在损坏数据恢复时,利用数据所有者提供的数据编码信息和云存储中保存的数据块直接计算进行恢复,从而避免从云存储中远程下载数据.理论分析和实验表明,所提算法在相同的存储空间下显著减少了损坏数据恢复时的通信开销并提高了数据的可用性.

    云存储多副本多级网络编码多级编码矩阵数据恢复

    基于蚁群优化算法的纠删码存储系统数据更新方案

    李乾胡玉鹏叶振宇肖叶...
    305-318页
    查看更多>>摘要:由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service,QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme,ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm,MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.

    分布式存储系统数据更新纠删码蚁群优化更新时延

    面向跨数据中心网络的节点约束存储转发调度方法

    林霄姬硕岳胜男孙卫强...
    319-337页
    查看更多>>摘要:借助海量数据中心存储,通过存储转发(store-and-forward,SnF)调度大数据传输,已被证明能有效解决跨数据中心间大数据传输难题.然而,多数现有调度方法将数据途经的所有网络节点(例如数据中心)均纳入SnF调度决策,导致其计算复杂度过高,难以为大规模网络提供实时调度服务.针对跨数据中心光网络场景,给出SnF模型,量化分析存储节点数量对调度问题性能与复杂度的影响.研究表明:在一定条件下,无需将所有节点都纳入调度决策也可获得良好的调度性能.由此,提出了节点约束SnF调度方法.该法的特点在于:1)仅将部分数据途经节点纳入调度决策,降低调度问题求解难度;2)引入拓扑抽象,将被选节点间链路状态压缩,缩小调度问题规模、提高算法求解效率仿真结果表明:在阻塞率和算法计算时间方面,该方法优于现有调度方法.

    大数据传输跨数据中心网络波长路由存储调度方法

    基于语义相似性的跨模态图文内容筛选存储机制研究

    刘渝郭婵冯树耀周可...
    338-355页
    查看更多>>摘要:随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage,CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.

    语义管理Hash码元数据元数据图谱存储机制读带宽

    基于持久化内存的索引设计重新思考与优化

    韩书楷熊子威蒋德钧熊劲...
    356-370页
    查看更多>>摘要:非易失性内存(non-volatile memory,NVM)是近几年来出现的一种新型存储介质.一方面,同传统的易失性内存一样,它有着低访问延迟、可字节寻址的特性;另一方面,与易失性内存不同的是,掉电后它存储的数据不会丢失,此外它还有着更高的密度以及更低的能耗开销这些特性使得非易失性内存有望被大规模应用在未来的计算机系统中.非易失性内存的出现为构建高效的持久化索引提供了新的思路.由于非易失性硬件还处于研究阶段,因此大多数面向非易失性内存的索引研究工作基于模拟环境开展在2019年4月英特尔发布了基于3D-XPoint技术的非易失性内存硬件apache pass(AEP),这使得研究人员可以基于真实的硬件环境去进行相关研究工作.首先评测了真实的非易失性内存器件,结果显示AEP的写延迟接近DRAM,而读延迟是DRAM的3~4倍基于对硬件的实际评测结果,研究发现过去很多工作对非易失性内存的性能假设存在偏差,这使得过去的一些工作大多只针对写性能进行优化,并没有针对读性能进行优化.因此,重新审视了之前研究工作,针对过去的混合索引工作进行了读优化此外,还提出了一种基于混合内存的异步缓存方法.实验结果表明,经过异步缓存方法优化后的混合索引读性能是优化前的18倍,此外,经过异步缓存优化后的持久化索引最多可以降低50%的读延迟.

    非易失性内存持久化内存索引存储系统键值存储系统

    基于持久性内存的单向移动B+树

    闫玮张兴军纪泽宇董小社...
    371-383页
    查看更多>>摘要:由新型非易失存储介质构成的持久性内存(persistent memory,PM)具有扩展性强、按字节访问与静态能耗低等特性,为未来主存与辅存融合提供了强大的契机.然而由于LLC(last level cache)具有易失性且与主存交互粒度通常为64B,而PM的原子持久化操作粒度为8B.因此,数据从LLC更新到PM的过程中,若发生故障,则可能破坏更新操作的失败原子性,进而影响原始数据的完整性.为了保证更新操作的失败原子性,目前研究主要采用显式调用持久化指令与内存屏障指令,将数据有序地持久化到PM上,但该操作会造成显著的开销,在索引更新中尤为明显在对索引进行更新时,往往会涉及到索引结构的变化,该变化需要大量的有序持久化开销研究旨在减少基于PM的B+树在更新过程中为保证失败原子性而引入的持久化开销通过分析B+树节点利用率、不同更新模式下持久化开销以及更新操作之间的关系,提出了一种基于节点内数据真实分布的数据单向移动算法通过原地删除的方式,减少删除带来的持久化开销利用删除操作在节点内留下的空位,减少后续插入操作造成的数据移动,进而减少数据持久化开销基于上述算法,对B+树的重均衡操作进行优化.最后通过实验证明,相较于最新基于PM的B+树,提出的单向移动B+树能够显著提高单一负载与混合负载性能.

    持久性内存索引结构失败原子性索引更新LLC持久化指令