首页期刊导航|大数据
期刊信息/Journal information
大数据
人民邮电出版社
大数据

人民邮电出版社

双月刊

2096-0271

bdr@bjxintong.com.cn

010-81055448

100078 

北京市丰台区成寿寺路11号邮电出版大厦8层

大数据/Journal Big Data ResearchCSTPCD
查看更多>>本刊以“开放、创新姿态,推动大数据技术的研究与应用,促进技术交流,推广创新成果,服务大数据社会”为宗旨。编辑方针和业务范围为:报道大数据技术应用领域中具有前瞻性、独立性和创新性的产业与技术发展见解;产业的新研究应用成果与发展动态;关键技术、热点的前沿性研究与应用;具有先进性和推广价值的应用方案等,有效促进我国大数据技术研究与应用的交流,全方位展示我国大数据产业的发展、技术趋势和创新应用成果,推动大数据产业的发展,使大数据技术真正应用于社会,服务于社会发展。
正式出版
收录年代

    导读

    1-2页

    面向湍流大数据的高效存储与访问关键技术研究

    程文迪张晓潘兆辉赵友军...
    3-20页
    查看更多>>摘要:随着测量技术和数值模拟技术的发展,数据驱动的湍流研究成为该领域的新研究方法.我国已建立了多个风洞实验室和多个超算中心来模拟湍流,这些研究积累了大量的湍流数据,但是国内没有集中的湍流数据管理平台,耗资巨大的实验和仿真数据难以实现交流和共享.湍流数据具有数据量大、维度高、精度高和多源异构等特点,其存储、访问与管理存在数据集成困难、数据访问低效和存储效率低等问题.设计了一个面向航空、航天和航海典型流动问题的湍流大数据分布式存储系统TDFS.结合湍流大数据的访问特点,在TDFS中设计了新的元数据组织方式和数据访问接口.实验结果表明,与HDFS和GlusterFS相比,TDFS分别实现了54.38%和57.7%的接口响应速度提升.同时,为了降低湍流大数据的存储开销,设计了基于HDF5的副本延迟压缩机制,相比原有的副本存储方式,节省了34%的存储空间.

    湍流大数据分布式存储系统副本延迟压缩性能优化

    面向大数据场景的系统性能优化实践

    王冀彬杨海龙冯凯孙欣...
    21-33页
    查看更多>>摘要:在现有大规模分布式环境中,大数据应用的性能与计算效率仍有较大的提升空间.然而,在大规模环境中进行性能分析与优化需要大量领域专家.针对大数据应用中的性能优化问题,提出了一个通用的低效查询语句检测与优化流程,总结了4类显著影响大数据应用性能的低效行为,并针对每一类低效行为,提出了具体的优化策略.最后,通过实验评估验证了提出的优化方案在实际大规模集群中的有效性.

    Hadoop大数据系统性能优化调优工具

    面向NVM的IoT时序数据多态协作压缩策略

    蔡涛雷天乐牛德姣戴健飞...
    34-50页
    查看更多>>摘要:压缩策略是影响IoT时序数据存储系统性能的重要因素,而现有压缩策略缺乏针对NVM与IoT时序数据特性的优化机制.因此,提出了面向NVM的IoT时序数据多态协作压缩策略.首先,给出了IoT时序数据的组织结构.然后,针对IoT时序数据在一段时间内较稳定以及在用户态与内核态读写NVM适合的粒度差异较大的情况,设计了分层压缩策略.在用户态接收数据时,采用轻量级的数据压缩算法减少需存储的数据量,也减小了对IoT时序数据的存储效率的影响;针对IoT系统以查询和分析异常时序数据为主的特性,设计了深度压缩算法,在内核态对历史IoT时序数据进行深度压缩.其次,针对深度压缩历史IoT时序数据与存储新接收的IoT时序数据之间对NVM带宽的竞争,提出了写带宽保证的动态调整算法.最后,构建了面向NVM的IoT时序数据多态协作压缩策略原型PCCTSMS,并使用YCSB-TS工具进行测试与分析.实验结果表明,与InfluxDB、OpenTSDB、KairosDB和TVStore相比,PCCTSMS最高能提升161.3%的写吞吐率以及减少14.6%的存储空间.

    数据压缩IoT时序数据非易失性内存存储系统

    面向广域分布式计算环境的任务与资源动态双向匹配方法

    尚晶肖利民肖智文王锦权...
    51-65页
    查看更多>>摘要:广域分布式计算环境可提供大规模的计算和存储资源,是支持算力互联和数据流转的重要基础设施.在广域分布式计算环境中,任务与资源的匹配对于提高系统性能具有重要意义.然而,任务与资源的多样性、地理位置分散的资源会增加二者匹配的复杂性.针对响应延迟高、匹配效率低等问题,提出了面向广域分布式计算环境的任务与资源动态匹配方法,通过建立统一的任务需求模型和资源能力模型来简化匹配过程,降低响应延迟.此外,定义了任务向匹配度和资源向匹配度以刻画任务视角和资源视角的偏好,并权衡二者;定义了任务和资源的双向综合匹配度以量化任务需求和资源能力的适配程度.最后通过动态计算每一组任务与资源间的双向综合匹配度以优化匹配效果.实验结果表明,与现有的方法相比,该方法可提升匹配效果,并大幅降低平均响应延迟.

    广域协同调度资源匹配双向匹配广域分布式计算环境

    基于长短期记忆网络的炼钢厂碳排放量预测方法

    李凤云窦泽慧李朋郭威...
    66-76页
    查看更多>>摘要:钢铁行业作为中国制造业碳排放量第二大的行业,拥有较大的碳减排潜力.为便于相关部门对碳排放量进行监管和控制,展开碳排放量预测研究.以某炼钢厂为研究对象,首先,分析炼钢流程中的二氧化碳排放,确定了引起碳排放的10种能源物质,据此收集了炼钢厂2001—2023年的基础能源数据,依据碳排放核算方法由基础能源数据核算出碳排放量;其次,基于长短期记忆网络预测未来7年的碳排放量,训练误差和测试误差均接近0.01,实际误差为1323307.46 t二氧化碳,并与其他3种预测模型进行对比,结果表明所提预测模型的拟合精度较高、预测效果较好;然后,采用Mann-Kendall趋势检验法评估炼钢厂的整体碳排放趋势;最后,为积极响应低碳环保目标,针对炼钢厂提出合理建议.

    炼钢厂长短期记忆网络碳排放预测低碳环保

    基于生成对抗网络的多特征融合去雾技术

    司亚中张旭龙杨帆王健宗...
    77-88页
    查看更多>>摘要:为提高图像清晰度,解决传统图像在去雾过程中存在的特征提取困难、去雾不彻底等问题,提出一种基于生成对抗网络的多特征融合端到端去雾网络.该网络由生成器和判别器组成,生成器采用编解码结构,通过多特征提取融合(MFEF)块提取多种感受野下的高维表征信息.判别器使用一系列卷积计算对生成图像和清晰图像进行特征差异分析,引导生成器输出更加真实的去雾图像.实验结果表明,该算法在有效消除雾霾干扰的同时,能够最大限度地保留图像的原始色调.与现有方法相比,该算法在峰值信噪比、结构相似性客观评价指标上分别提升了2.588 dB、2.66%.

    图像处理图像去雾深度学习生成对抗多特征融合

    面向大数据的可扩展正则采样并行排序算法

    王莹陈志广卢宇彤
    89-105页
    查看更多>>摘要:排序算法是计算机科学领域的一个基础算法,是大量应用的算法核心.在大数据时代,随着数据量的极速增长,并行排序算法受到广泛关注.现有的并行排序算法普遍存在通信开销过大、负载不均衡等问题,导致算法难以大规模扩展.针对以上问题,提出一种大规模可扩展的正则采样并行排序(scalable parallel sorting by regular sampling,ScaPSRS)算法,摒弃传统正则采样并行排序(parallel sorting by regular sampling,PSRS)算法中由一个进程负责采样的做法,转而让所有进程参与正则采样,选出p-1个分隔元素,将整个数据集划分成p个不相交的子集,然后实施并行排序,避免了单一进程的采样瓶颈.此外,ScaPSRS采用一种新的迭代更新策略选择p-1个分隔元素,保证划分的p个子集尽可能大小相同,从而确保p个进程对各自的子集进行本地排序时的负载均衡.在天河二号超级计算机上进行的大量实验表明,ScaPSRS算法能够成功地扩展到32000个内核,性能比PSRS算法和Hofmann等人提出的分区算法分别提升了3.7倍和11.7倍.

    并行排序正则采样负载均衡大数据

    一种双通道半监督网络表示学习模型

    杜航原谢富中王文剑白亮...
    106-120页
    查看更多>>摘要:在半监督网络表示学习中,节点标签对于网络在不同空间中映射关系的建立具有重要指导意义.然而在很多实际任务中,可用标签信息往往比较有限或难以获取,这导致在学习网络低维表示的过程中无法提供充分有效的监督.针对这一问题,提出了一种双通道半监督网络表示学习模型,该模型以自编码器为基本框架,由自监督和半监督两个信息传递通道构成.自监督信号与标签信息分别在两个通道中对网络表示映射关系的建立提供指导,同时二者之间形成信息互补与增强.考虑到两个通道间可能存在信息冗余,在互信息视角下设计了冗余识别与消除机制.在此基础上,构造了一体化优化模型,实现自监督学习与半监督学习的协同,使学习到的网络表示更好地捕捉和保持网络的结构和特性.在真实数据集上的实验结果表明,提出的模型学习的网络表示在节点分类、聚类和可视化等任务中能够获得优于基线方法的性能.

    半监督网络表示学习标签信息自监督学习互信息图神经网络

    基于机器阅读理解的论文辅助阅读系统构建

    秘蓉新姚文文阮宏坤
    121-129页
    查看更多>>摘要:在信息化和数字化时代,科技论文数量的迅速增加带来了一系列问题,如论文冗长、信息提取困难、阅读时间成本居高不下等,研究者面临着更加烦琐、耗时的文献阅读挑战.通过语言模型落地创新,设计了科技论文辅助阅读系统来应对这些挑战.以机器阅读理解技术为核心,通过解析论文文本和预先设定问题,达到自动回答的效果.充分利用预训练语言模型PERT,提升系统对语义的理解和信息的提取能力,解决科技论文阅读过程中存在的各种问题,从而帮助读者提高科技文献阅读效率.

    自然语言处理机器阅读理解预训练语言模型