合成生物学2021,Vol.2Issue(3) :428-443.DOI:10.12211/2096-8280.2020-023

细胞内大片段DNA数据存储的多RS码交织编码

Multiple interleaved RS codes for data storage using up to Mb-scale synthetic DNA in living cells

陈为刚 葛奇 王盼盼 韩明哲 郭健
合成生物学2021,Vol.2Issue(3) :428-443.DOI:10.12211/2096-8280.2020-023

细胞内大片段DNA数据存储的多RS码交织编码

Multiple interleaved RS codes for data storage using up to Mb-scale synthetic DNA in living cells

陈为刚 1葛奇 2王盼盼 2韩明哲 3郭健2
扫码查看

作者信息

  • 1. 天津大学微电子学院,天津 300072;教育部合成生物学前沿科学中心,天津大学,天津 300072
  • 2. 天津大学微电子学院,天津 300072
  • 3. 教育部合成生物学前沿科学中心,天津大学,天津 300072;天津大学化工学院,天津 300072
  • 折叠

摘要

合成DNA作为潜在的数字信息存储介质,存储密度高,可用时间久,有望成为未来数据存储的重要选项.然而,DNA的合成与测序读出往往造成碱基的多种错误,无法满足数据存储的可靠性要求,而保证可靠性的编码方案往往效率较低.针对该问题,提出了一种面向酿酒酵母内大片段DNA数据存储的高效率编码方法.数据编码通过多个极高码率的里德-所罗门(RS)码的码字交织构建数据DNA单元,将其与酵母的自主复制序列(A R S)交替镶嵌,构成酵母人工染色体序列;数据读出时,利用二代高通量测序,组合了读段从头(de novo)组装、ARS导引例,用20×二代测序数据可无错恢复原始数据.该编码方法不仅能实现数据可靠存储,实现的DNA数据部分逻辑密度为1.973 bit/bp,即使考虑生物单元开销,总体逻辑密度仍达到1.947 bit/bp.该设计流程可支持Kb到Mb不同长度的DNA的编码,为大片段DNA数据存储的"湿"实验提供灵活的实验前验证与评估.

关键词

DNA数据存储/里德-所罗门(RS)码/交织/自主复制序列/重叠群

引用本文复制引用

出版年

2021
合成生物学

合成生物学

CSCD北大核心
ISSN:
被引量4
参考文献量12
段落导航相关论文