本站使用 cookies,继续浏览表示您同意我们使用 cookies。
随着基因测序技术的普及,无创产前检测(nipt)技术越来越广泛地应用于临床医学领域。无创产前检测可用于检测胎儿是否罹患常见的染色体疾病,常见的如21-三体综合征等。
由于孕妈血浆中存在胎儿游离的dna分子,医院临床科室通过采集孕妇静脉血,可以获取到胎儿游离的dna。基因测序技术可对胎儿dna进行测序分析,从中得到胎儿的遗传信息,从而检测胎儿是否罹患染色体疾病。
那么,无创产前检测技术是如何获取到胎儿遗传信息的呢?
无创产前检测的流程可分为样本采集,文库制备,测序反应,数据分析。
首先从孕妈身上抽取一定量静脉血提取胎儿的游离的dna分子,此为第一步样本采集;随后将dna打断成dna片段,再将dna片段制作成一个个dna纳米球,此为第二步文库制备;再将dna纳米球与特定的酶以及荧光探针进行反应,将反应产生的光信号进行数字化处理,得出碱基序列,此为第三步测序反应;最后对碱基序列进行一系列数据分析操作,即可得出胎儿的基因变异检测结果。
这看似简单的流程,背后其实蕴含着大量的生物信息分析工作,并伴随着海量的数据存取与调用分析。
dna分子中存在海量的遗传信息,据统计,1ng dna分子上蕴含着1tb的碱基对。经过测序实验后,基因测序仪会将dna分子的碱基序列信息储存在一个个几十gb级别的大文件——fastq文件中。
测序工作人员则需要先将原始的fastq文件传输至it机房的高性能存储池中。通过计算机并行读取多份gb级别的大文件进行并行分析处理,把胎儿的遗传信息读取出来,再进行数据处理(序列比对、排序处理以及去重),最终对处理过的碱基序列进行变异检测,从而确定胎儿的健康情况。
基因测序数据分析业务需对底层存储系统进行频繁调阅,对存储提出了极高的性能要求,任何一个环节掉链子,都会导致影响基因测序业务的时效性,拖慢基因检测的进度。
面对如此充满挑战的数据承载任务,深信服eds分布式存储方案为基因测序业务构建高性能存储底座,以过硬的存储性能以及极致的性价比支撑大规模测序分析业务。
1.提高数据传输效率:同时对接基因测序仪和高性能计算节点,数据无须二次传输
基因测序仪产生的原始fastq数据可通过cifs协议直接写入eds共享文件夹,与此同时,eds将同一共享文件夹通过nfs协议挂载至hpc高性能计算节点,原始数据可被hpc计算节点直接访问,无须进行二次传输。可以缩短测序业务的数据传输时间,提升测序业务效率。
2.提高基因测序时效性:提供极致读写带宽能力
①满足数gb/s的瞬时写入要求:通过nvme-of协议充分发挥nvme ssd性能,每个eds节点可以对外提供2gb/s带宽,满足数据分析过程中的大文件写入要求。
②文件读取时延控制在us-ms区间:结合rdma协议缩短io路径,eds可有效降低数据读取延迟,在大规模测试分析业务场景下,读取延时仍可控制在us~ms区间,提高测序数据分析效率。
3.降低用户数据长期保存成本:提供分级存储能力,支持冷数据长期保存
eds提供分级存储能力,测序任务完成后,样本数据无需频繁调阅,但需长期保存。此时调阅频率低的温冷数据可通过迁移软件迁移至大容量文件存储池。大容量文件存储池里无需继续调阅的冷数据,可定期归档至蓝光库/磁带库等低成本存储介质中,降低生物信息数据长期存储成本。
4.降低测序成本:极致性价比,帮助更多用户享受科技红利
eds提供固态硬盘 机械硬盘混合配置硬件,即可对标全闪存配置的性能,提供极致的性价比,由于机械硬盘的单位成本只有固态硬盘的1/5,因此eds的混合配置可以帮助用户有效降低测序成本,让更多的孕妈可以用极低的成本进行无创产前检测、享受科技红利。
其实,无创产前检测只是基因测序技术的一个应用场景,高通量基因测序技术在临床领域里的辅助生殖、肿瘤诊断与精准治疗、病原体分析等领域以及其他场景也有着广泛的应用,如农林牧渔研究、医学实验、生物制药、海光检疫、疾控中心等领域亦有广阔的应用前景。
目前,深信服分布式存储已和多个产业用户形成了广泛合作,在测序仪器精度快速发展以及生物信息数据量呈指数型爆发增长的当下,产业用户在数据存储的投入的占比上越来越高,存储投入将成为生信产业用户的关键支出。
深信服eds采用通用硬件降低用户存储投入成本,再结合过硬的软件实力激发通用硬件的性能,提高测序检测效率。为测序用户提供极致性价比的存储凯发登录的解决方案,助力基因测序产业的稳健发展。