DNA存储是由DNA高通量合成与测序技术催生的信息与生物相融合的新领域,通过DNA分子的碱基序列直接编码数字信息,由高通量合成技术合成序列进行信息写入,并利用高通量测序技术实现信息的读取,以实现存储数据的信息还原。DNA存储的编解码,是DNA存储中最重要的环节之一,直接影响了存储信息的稳定性及可靠恢复性。直接套用的信道编码技术有较强的数据类型偏好性,因此在实际的存储应用中存在较高的数据无法恢复的风险。
近日,深圳华大生命科学研究院研究团队在《Nature Computational Science》上发表了题为“Towards Practical and Robust DNA-Based Data Archiving Using‘Yin-Yang Codec’System”的研究论文,提出了一套DNA信息存储专用的比特-碱基编解码系统。
研究团队从DNA双链模型中受到启发,结合中华文化中“阴阳”对立统一的思想,将其巧妙应用到DNA编解码系统当中,以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。同时引入筛选机制,将与现有合成测序技术兼容性不佳的序列通过预先设置的筛选条件进行过滤。研究通过编码学的理论推导以及不同数据类型文件的模拟编码与实验验证,证明了该系统在保证信息密度的前提下,在数据恢复稳定性与存储密度方面体现显著的性能提升,每克DNA能存储的信息量约为432.2EB。
该研究为DNA信息存储的应用提供了一种高密度、高稳定性的比特-碱基编解码方法,并完成了体内外两种模式的信息存储实验验证;研究开发了一种全新的DNA存储编码方法,为DNA存储的多类型应用提供了重要工具,有望在海量数据长期存储的新型介质研究中起到积极的推动作用。
-leyu体育