大规模平行测序技术在STR,遗传标记检测中的应用进展

陶瑞旸,董新宇,陈安琪,吕叶辉,张素华,李成涛

1.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;
2.上海健康医学院基础医学院,上海201318

从Sanger测序到焦磷酸测序,快速DNA 测序方法的出现极大地推动了生物学和医学的研究和发展,随着人们对低成本、高通量测序需求的与日俱增,大规模平行测序(massively parallel sequencing,MPS)技术,也被称为下一代测序或二代测序(next-generation sequencing,NGS)技术,在迅速发展的同时,其在测序速度、测序通量和读取长度方面均取得了巨大进步[1]。现今,MPS 技术已广泛应用于基础医学、临床诊断、微生物组学和农业基因组学等诸多研究领域,成为不可或缺的检测方法[2-5]。在法医遗传学领域,MPS 技术也从十年前的“崭露头角”到目前的“略有所成”。随着越来越多的法医遗传学实验室引入MPS 平台,应用MPS技术检测法医学相关遗传标记、解决法医科学问题的研究显著增长。正如在其他科学领域的应用,MPS 技术可检测单核苷酸多态性(single nucleotide polymorphism,SNP)、插入/缺失(insertion/deletion,InDel)等分子遗传标记,同时也适用于法医学经典遗传标记,如线粒体DNA(mitochondrial DNA,mtDNA)控制区和短串联重复序列(short tandem repeat,STR)的检测,更为线粒体全基因组测序、微单体型检测等新型法医学应用提供了支持。2019 年9 月,在捷克布拉格召开的第28 届国际法医遗传学大会所讨论的法医遗传学研究热点,如遗传标记多态性检测、表型推断、混合样本检测、犯罪现场体液斑鉴定等,均有MPS技术的参与[6]。

STR 在法医遗传学中有着不可撼动的地位,虽然目前毛细管电泳(capillary electrophoresis,CE)技术检测STR 仍是法医学应用中的“金标准”,但是MPS 技术用于分析STR 的优势也吸引了法医遗传学领域学者们的广泛关注。MPS 平台的优势之一在于能够在单个工作流程实现数百甚至数千种不同的DNA 遗传标记的并行检测,另外,其还能确定序列水平的遗传变异。与传统的CE 平台相比,使用MPS 技术分析STR 标记主要有以下几大优势:(1)可同时检测的STR基因座数量增加;
(2)可识别CE 平台无法识别的STR等位基因序列多态性,提高STR 基因座的多态性,从而提高STR 基因座用于个体识别和亲权鉴定的系统效能;
(3)可并行检测多个DNA 样本。然而,在全球范围法医实验室日常工作中实现MPS 技术的普及之前,我们仍需面对很多挑战。可喜的是,世界多个法医DNA 科学学会、工作组,各种跨国研究项目以及提供MPS 技术的行业,正在采取多项举措来应对这些挑战,对包括MPS 技术运行成本较高,数据庞大、分析困难,缺乏统一的命名和报告标准,以及与现有CESTR 数据库相兼容等问题逐步提出建议,同时促进各国实验室之间的交流,共同发展。

本文拟概述用于法医遗传学STR 分子标记检测的主流MPS 平台和原理,回顾MPS 技术用于STR 检测的策略和现状,介绍针对STR 标记的商品化MPS 检测体系及其性能评估,应用广泛的MPS-STR 数据分析工具以及基于MPS-STR 的群体学调查研究,总结现阶段世界范围内多个国际项目、法医工作组等为促进MPS 技术的法医学应用的各种举措,讨论将MPS技术应用于STR 检测所面临的难题和建议,相信随着技术的发展和研究的深入,MPS 技术在法医遗传学实践中将发挥更大的作用。

2005 年瑞士Roche 公司推出的454 测序仪以焦磷酸测序原理为基础,开启了高通量测序的新纪元。由于其读长长、准确性高,454 测序仪也是最早用于检测法医学STR 标记的MPS平台[7-8](2016年停止生产)。目前法医学领域应用的主要为美国Thermo Fisher Scientific 公司和Illumina 公司提供的测序平台。

1.1 Ion PGMTM、Ion S5TM 系列、Ion GeneStudio S5系列测序平台

自2010—2011 年推出第一台半导体测序仪Ion PGMTM后,Thermo Fisher 公司以Ion TorrentTM技术为基础不断更新和提高其测序通量、测序速度和自动化程度等,陆续推出Ion S5TM、Ion S5TMXL、Ion GeneStudio S5 系列测序平台,均适用于法医学研究。以STR 标记靶向测序为例,首先通过扩增目标STR 片段生成DNA 文库,并添加条码和连接接头以区分样本,经乳液PCR 对纯化的DNA 文库进行克隆扩增;
应用Ion TorrentTM技术对每个扩增子进行平行测序,通过结合化学试剂和半导体技术,将化学信号(A、C、G、T)转换成数字信息,即将核苷酸按顺序加入测序反应中,每掺入1 个或多个核苷酸会释放1 个或多个氢离子,该氢离子被半导体芯片上大规模并行的离子传感器检测到,输出数字信息,实现高灵敏度的碱基检测。该过程无修饰的核酸,无需化学级联酶促反应,无需荧光、化学发光或复杂的光路系统。一般而言,半导体测序平台的运行时间相对较短,因为信号检测为实时执行,而非通过成像完成。但该技术由于对多聚核苷酸的检测仍不够完善,在检测同一碱基连续出现时可能出现测序错误[9]。

以上Ion TorrentTM半导体测序平台均支持不同通量的半导体芯片,以最大的灵活性帮助研究人员配置MPS 实验,兼容不同的测序需求。以最新的Ion GeneStudio S5 系列测序平台为例,可根据需要选择5 种芯片(Ion 510、520、530、540 及550)使测序数据通量范围涵盖500 Mb(1 张Ion 510 芯片)至50 Gb(Ion GeneStudioTMS5 Prime 系统联合2 张Ion 550 芯片)[10]。此外,Ion ChefTM仪器的使用为测序之前自动化的Ion AmpliSeqTM文库制备和芯片加载提供了解决方案,极大简化了工作流程:手工操作时间短(15 min),节省精力和时间;
每次运行可自动制备8 个文库样本或自动加载两张半导体芯片;
降低手工加载芯片造成的不稳定因素;
可实现样本追踪并与Torrent Suite Software(TSS)[11]或实验室信息管理系统(laboratory information management system,LIMS)结合。

Thermo Fisher 公司的法医学商品化试剂盒中,除Precision ID GlobalFilerTMNGS STR Panel 检测常染色体STR(autosomal STR,A-STR)外,还包括检测124 个SNP 的Precision ID Identity Panel[12]和165 个SNP 的Precision ID Ancestry Panel[13],分别用于个体识别和祖源推断,以及检测mtDNA 控制区和全序列的Precision ID mtDNA Control Region Panel[14]和Precision ID mtDNA Whole Genome Panel[15],均可在Ion PGMTM、Ion S5TM系列和Ion GeneStudio S5 系列测序平台上进行测序。然而由于Ion PGMTM平台实验流程较为繁琐,手动操作时间长,已逐步淡出人们视野,Thermo Fisher 公司2017 年推出的Precision ID GlobalFilerTMNGS STR Panel v2 亦不再适用于Ion PGMTM平台。

1.2 MiSeq FGxTM Forensic Genomics System

MiSeq FGxTMForensic Genomics System(简称MiSeq FGx 测序平台)是Illumina 公司专用于法医基因组学研究的MiSeq 测序平台,目前隶属于美国Verogen 公司,联合Verogen 公司的ForenSeqTMDNA Signature Prep 试剂盒与ForenSeqTMUniversal Analysis Software(USA 软件)[16]共同完成从DNA 样本到200 多个遗传标记测序数据产出并分析的完整流程。ForenSeqTMDNA Signature Prep 试剂盒推荐的DNA输入量为1 ng,其文库生成包括两步扩增,通过第一步PCR 扩增目标STR 和SNP,第二步扩增连接接头和唯一索引。加入的接头序列与芯片流动池表面固定的寡核苷酸互补,促使文库与流动池结合以进行桥式扩增;
索引用于标记某一特定DNA 样本,在一次运行中可平行检测96 个样本。每次运行可检测的样本数目由预期达到的测序深度和芯片通量共同决定,如应用ForenSeqTMDNA Signature Prep 试剂盒的标准芯片同时检测80 个DNA 文库样本,A-STR 的平均测序深度达1 800×以上。在测序之前,将各DNA 文库样本混合、变性,并加载到测序试剂盒中[17]。桥式扩增能够以附着于流动池表面的纯化文库为模板,产生数百万的单个DNA 片段克隆簇;
通过加入带有荧光基团的可逆终止子标记的脱氧核苷三磷酸(deoxynucleoside triphosphate,dNTP)进行读取,接着切割终止子以允许下一个碱基的加入,不断循环上述过程从而完成边合成边测序(sequencing-by-synthesis,SBS)。每个测序循环中,4 种dNTP 均存在且浓度相同,通过自然竞争,最大程度地减少错误掺入的风险,有效将掺入偏差降至最低[18-19]。由于该过程中的碱基识别是通过直接测量信号强度实现,因此与其他MPS 方法相比,原始错误率大大降低[20-22]。在测序过程中,随着荧光信号的减弱,序列后端的碱基准确性会受到一定程度影响,成为限制该测序平台读取长度的主要原因。目前,ForenSeqTMDNA Signature Prep 试剂盒联合MiSeq FGx 测序平台可用于398 bp 长度内DNA文库的测序。

目前MiSeq FGx 测序平台上另有商品化试剂盒ForenSeqTMmtDNA Whole Genome 试剂盒[23]和ForenSeqTMmtDNA Control Region试剂盒[24]分别用于检测线粒体DNA 全序列和控制区。此外,美国Promega公司基于MiSeq 测序平台(美国Illumina 公司)推出其PowerSeqTM系列MPS 试剂盒[25],用于检测法医学常用STR 基因座和(或)线粒体DNA 控制区。HiSeq X、HiSeq 2500 和NextSeq 500 测序平台(美国Illumina公司)也应用于法医学研究,包括进行全基因组测序以甄别同卵双生子[26]、获取单个细胞DNA 的法医学遗传信息[27]、获得遗骸的基因组全测数据进行家系搜索[27],也用于检测新型法医学遗传标记[28]及开展法医微生物学研究[29]等。此外,由华大基因推出的国产测序 仪 如DNBSEQ-T7、MGISEQ-2000 和MGISEQ-200等以DNA 纳米球测序技术(DNBSEQTM)为核心,性能良好,数据输出准确性高,目前主要应用于分子生物学、医学领域,今后或可应用于法医学领域。

2.1 商品化STR 检测体系及其性能评估

2013年,Thermo Fisher公司推出了基于Ion PGMTM测序平台的第一个STR 检测体系Ion TorrentTMHID STR 10-plex[30]。应用Ion AmpliSeqTM技术构建DNA文库,半导体测序技术进行正反向测序并使用TSS 中的插件分析序列数据。该体系与Ion PGMTM测序平台的结合为MPS-STR 检测提供了从PCR 到数据分析的首个集成化解决方案,能够同时检测CSF1PO、D16S539、D3S1358、D5S818、D7S820、D8S1179、TH01、TPOX、vWA和Amelogenin10 个遗传标记。随后,仍基于Ion PGMTM测序平台,Early Access STR Kit v1[31]和Precision ID GlobalFilerTMNGS STR Panel[32]于2015 年和2016 年相继问世,分别用于检测24 个和30 个STR基因座。2018 年Thermo Fisher 公司推出的Precision ID GlobalFilerTMNGS STR Panel v2 能够同时检测20 个扩展联合DNA 检索系统(combined DNA index system,CODIS)核心STR基因座、11个non-CODIS STR基因座以及4 个性别相关遗传标记。笔者所在的实验室对该体系进行了初步验证研究[33],包括其重复性、结果一致性、灵敏度、stutter 比例、基因座均衡性、混合物检测等。结果证实:除Penta D的平均覆盖深度较低(377×)外,其余基因座均表现良好,平均覆盖深度为3 946×,可获得可靠、一致性结果;
当DNA 输入量≥62.5 pg 时,使用该体系可获得完整的STR 分型图谱;
混合物中次要贡献者比例大于25%时,可获得其完整STR 分型;
该体系可用于血痕、指甲、毛发等常见法医学检材的检测;
使用该体系对50 个无关个体进行检测,成功获得序列多态性等位基因及STR 侧翼区域序列变异信息等。此外,该体系文库构建和芯片加载步骤均可在自动化操作平台Ion ChefTM上进行,整个实验过程自动化程度高,人工处理时间显著缩短,有助于该体系在法医学实践中的应用。2019 年,Thermo Fisher 公司发布了将Precision ID STR 和SNP体系(共324 个遗传标记)共同检测的MPS 实验流程[34],结果证实,当DNA 输入量为1 ng、使用1 张Ion 530 芯片检测12 个参考样本时,可获得完整、准确的测序结果,该共检测流程仍需进一步研究以验证其性能。

2014 年,基于MiSeq 测序平台,美国Promega 公司推出其MPS-STR 体系的第一个版本[35],涵盖全部13 个CODIS STR基因座、4 个non-CODIS STR 基因座以及Amelogenin遗传标记。在此基础上,又陆续推出PowerSeqTMAuto System、PowerSeqTMAuto/Y System和PowerSeqTMAuto/Mito/Y System[25]。其中PowerSeqTMAuto System包括22 个A-STR基因座、2个性别相关遗传标记(Amelogenin和DYS391),评估实验证实其可输出稳定的一致性结果,使用62 pg 单一来源DNA 可获得完整基因型结果,混合物中次要贡献者比例大于5%时可检测到其部分基因分型,且该体系成功应用于模拟法医学案例样本的检测[36]。2017 年Promega 公司推出的Auto/Y System,不仅在前者基础上新加入22 个Y 染色体STR(Y-chromosome STR,Y-STR)基因座,还对样本处理过程进行了优化,用于减少污染概率或人为失误事件,提高了实验效率,同时亦能保证测序覆盖率、结果一致性、灵敏度等原始数据质量[37]。而Auto/Mito/Y Panel[25]则 将Auto/Y System 与覆盖线粒体控制区的10 个亚区(F109、F220、F317、F402、F15989、F16094、F16197、F16363、F16450 和F16533)进行结合,目前未见其他实验室评估结果。

2016 年,CHURCHILL 等[38]对测试版ForenSeqTMDNA Signature Prep 试剂盒进行系统性评估,该试剂盒可基于MiSeq 测序平台对63 个STR 基因座、95 个常染色体身份信息SNP(identity informative SNP,iiSNP)进行扩增和测序,另外可选择检测其他56 个祖先信息SNP(ancestry informative SNP,aiSNP)及22 个表型信息SNP(phenotype informative SNP,piSNP)。结果表明,该测试版试剂盒能够产生可靠且可重复的测序结果,以1 ng DNA 获得完整分型图谱,可解析次要贡献者占5%及以上的混合样本,并且具有检测疑难检材的能力;
仅个别基因座表现欠佳,该试剂盒可成为法医学DNA 分型的有效工具。随后,通过改进并剔除不佳基因座,商品化试剂盒ForenSeqTMDNA Signature Prep 试剂盒的引物混合液A 中最终包含58 个STR基因座[27 个A-STR、7个X染色体STR(Xchromosome STR,X-STR)、24个Y-STR]和94个iiSNP,引物混合液B 另包含56 个aiSNP 及22 个piSNP。GUO等[39]针对该试剂盒的研究发现:获得完整STR 基因座分型图谱需输入DNA 不低于100 pg,而对于SNP,DNA 输入量需不低于200 pg;
次要贡献者占5%及以上的样本可被识别为混合物,占10%以上可获得次要贡献者的完整基因分型;
该试剂盒可耐受一定浓度的PCR 抑制剂,如≤200 μmol/L 血红素和≤50 μg/mL 腐殖酸,亦适用于法医学案例样本和一定程度的降解样本(≥200 bp 的降解样品中可获得56%以上STR 分型结果和88%以上SNP分型结果)。总体而言,经多个实验室及法医研究者的验证和评估,ForenSeqTMDNA Signature Prep 试剂盒与MiSeq FGx 测序平台和UAS软件结合的工作流程性能良好、表现稳定、结果可靠、重复性好且所得信息量丰富,可满足法医遗传学中个体识别、亲权鉴定等应用要求[40-43]。

除商业化MPS-STR 检测体系外,一些国内外法医实验室亦自主构建了包含常用STR 标记的MPS 体系。如基于Ion PGMTM测序平台检测10 个A-STR[44]和13 个Y-STR[45]的体系,基于MiSeq 系列测序平台检测23 个A-STR[46]和23 个Y-STR[47]的体系等,这些体系所得结果与CE 分型结果相比均具有高度一致性。KIM 等[46]构建的体系中,扩增子长度短于常用商业化MPS-STR 及CE-STR 体系,该特性有助于提高降解DNA 分型的成功率;
该体系采用与ForenSeqTMDNA Signature Prep 试剂盒中类似的文库标记方法,与adapter 连接方法相比,可缩短实验操作时间。这些自主研发体系目前主要用于群体遗传学研究。

2.2 MPS-STR 数据分析软件

一般而言,MPS-STR 测序数据分析主要包括3 个步骤:获得原始数据,与参考基因组对比,检出等位基因。大多数法医实验室使用2.1 节提及的公司提供的相应分析软件进行MPS-STR 数据分析,如Thermo Fisher公司的TSS[11]和Converge 软 件[48],Illumina 公司的UAS软件[16]。这些软件可显示包括质量控制参数、测序读长及序列对比等在内的基本信息,并提供测序数据标准输出文件,如BAM 文件(基因数据分析中通用的比对数据存储格式)或FASTQ 文件(保存生物序列及其测序质量得分信息的数据格式),可用于其他数据分析流程或软件。

Converge 软件可用于分析来自Precision ID GlobalFilerTMNGS STR Panel v2、Precision ID mtDNA Control Region Panel、Precision ID mtDNA Whole Genome Panel、Precision ID Identity Panel、Precision ID Ancestry Panel 以及其他定制的Ion AmpliSeqTMSNP系统的MPS 数据。分析STR 时,其结果包括STR 等位基因检出、基因分型、侧翼区域SNP 信息(附图1A)以及亚型杂合基因型(具有相同片段长度但显示不同序列的等位基因)的信息。通过与CE 平台常用的GeneMapperTMID-X软件(美国Applied Biosystems 公司)相似的界面,操作者可使用熟悉的等位基因、offladder(OL)峰等指标,并根据需要修改预配置的分析设置。此外,Converge 软件通过将NGS 数据分析模块与“案例管理”应用程序一起使用,可简化NGS 和CE配置文件的比较;
Converge 软件的亲缘/亲子关系模块可与GeneMapperTMID-X软件集成在一起,帮助实现自动化亲子关系和其他亲缘关系分析,并进行遗传似然率(likelihood ratio,LR)计算。该软件可进行额外配置以满足特定的实验室工作流程、标准作业程序(standard operating procedure,SOP)和分析参数,还可使用内置于Converge 软件的插件,将其集成到现有的LIMS 中,提高法医实验室的数据处理效率。

UAS 软件安装在一个独立的服务器上,从测序运行设置到样本数据进入最终的数据分析和报告生成阶段,控制整个测序流程,能够对运行指标和样本质量进行整体评估,实现同时针对200 多个法医学相关STR 和SNP 进行最终数据分析,包括多重基因座分离、序列比对、等位基因检出、基因分型和报告输出。此外,UAS 软件具有灵敏的质量控制指标、自动样本比较及群体参数统计的功能,有助于进行数据审查和其他下游分析,还可依据世界主要人种的群体数据,以主成分分析(principal component analysis,PCA)图的方式呈现基于aiSNP 的祖源推断结果等。然而该软件有两个主要的缺点:(1)以具体碱基序列输出STR 结果(如ATCGATCG),而非重复结构和重复次数(如[ATCT]2),难以统计;
(2)界面未显示STR 侧翼区域信息,虽可导出侧翼区域报告,但针对序列变异只显示不同颜色而不输出变异的位置、rs 编号等信息(附图1B),这对于复杂亲缘关系和混合物的分析十分重要。

Converge 软件和UAS 软件仅用于分析其特定的MPS-STR 体系,若法医工作者自主构建MPS-STR 体系,则可使用STRinNGS、STRait Razor 及FDSTools 等工具进行数据分析。其中,STRinNGS 的更新版本STRinNGS v2.0 是一个集成的python 脚本,其Docker镜像或zip 文件可供下载使用[49]。STRinNGS v2.0 用于预测基因型的指标涉及测序深度、背景噪声、侧翼区域长度以及侧翼区域中的碱基错配、基因座平衡和杂合子均衡性等。其结果表中,另以“Warning flags”突出显示可疑基因型或未被识别为等位基因(或噪声)的可疑序列,提示可能需手动分析。STRinNGS v2.0分析STR 及侧翼区域,根据STRidER 数据库最新指南(https://strider.online/nomenclature)命名等位基因,包括侧翼区域的变异。此外,STRinNGS v2.0 还可生成可直接上传STRidER 数据库的数据文件格式,提高工作效率。附表1 总结了近年来用于MPS-STR 数据分析的软件[50-60]。

2.3 基于MPS-STR 的群体遗传学调查

国际法医遗传学会(International Society for Forensic Genetics,ISFG)DNA委员会于2016年发布了法医学MPS-STR 序列结构指南[61],后更新于2018 年[62]。2017 年,Forensic Science International:Genetics期刊就MPS 产生的群体遗传学STR 数据作出建议[63],包括:(1)最少需50 例无关个体数据;
(2)需上传含有序列全部信息的FASTA 格式文件,依据ISFG 最新标准进行命名;
(3)不允许等位基因漏检(dropout);
(4)需提交STRidER 数据库(https://strider.online/)得到质量控制结果等。

美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)与美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)联合启动了STR 测序计划(STRSeq[64],https://www.ncbi.nlm.nih.gov/bioproject/380127),研究和储存基于序列特异性的STR 等位基因,用于法医学个体识别。STRSeq 项目中的初始数据来自4 个国际实验室4 612 个个体[NIST(n=1 786)、伦敦国王学院(n=1 043)、北得克萨斯州大学健康科学中心(n=839)和圣地亚哥德孔波斯特拉大学(n=944)]的靶向测序所观察到的等位基因汇总。STRSeq 数据在NCBI 中拥有与GenBank 记录稳定链接的STR 序列目录,每个等位基因包含STR 重复区域完整序列、STR 重复区域的位置、侧翼区域碱基突变的位置和rs 编号(来自dbSNP 数据库)、测序数据质量、相应的长度特异性等位基因等。这些数据经NCBI 中的BioProject 管理分为A-STR、备用A-STR、Y-STR 和X-STR,可通过浏览器搜索、BLAST 搜索或ftp 下载访问。STRSeq 项目为进行MPS-STR 人群样本研究的实验室提供了新观察到序列特异性等位基因的上传和交流途径。

其中,圣地亚哥德孔波斯特拉大学的PHILLIPS等[65]应用ForenSeqTMDNA Signature Prep 试剂盒和MiSeq FGx 测序平台对人类多态性研究中心(Centre d’Etude du Polymorphisme Humain,CEPH)的人类基因组多样性计划(Human Genome Diversity Project,HGDP)中944 个个体进行了测序研究,这批样本来自世界范围内51 个不同人群。该研究详细报告了ForenSeqTMDNA Signature Prep试剂盒中58个STR基因座内部的序列变异;
依据人类参考基因组GRCh38进行STR 重复区域结构标识,对其输出的20 个STR基因座,需先获得其反向互补序列并重新对比参考基因组;
序列特异性所带来的等位基因数目和杂合基因型数目的增长特别表现在D12S391、D21S11、D2S1338、D3S1138、D9S1122、DXS10135、DYS389Ⅰ/Ⅱ和DYF387S1基因座。由于少数特殊的序列变异仅发生在个别样本中,就HGDP-CEPH 中的样本量而言,无法对该低频率STR 等位基因作出可靠判断,因此,仍建议扩大MPS 平台检测STR 的样本量规模。此外,PHILLIPS 等也指出:该检测体系包含1 个高度多态性STR 基因座SE33,但UAS 软件并不输出其测序结果;
DYS460和DYS461均包含在检测体系中,但只输出DYS460的结果;
建议输出一些位于侧翼区域多态性较高的SNP(如rs4847015、rs25768、rs16887642、rs11642858),并注意与特定STR 等位基因连锁遗传的侧翼SNP 等。

附表2 总结了近年来国内外学者基于MPS-STR数据所展开的群体遗传学调查研究[32-33,42,44-47,66-86],在世界不同人群中检测得到大量新的STR序列多态性等位基因(STR 重复区域内和侧翼区域的变异),可显著提高这些法医相关STR 基因座的识别能力和系统效能,对各群体中个体识别和亲权鉴定等法医学应用具有重要意义。众所周知,CE技术检测STR标记自20世纪90年代以来开始应用于法医日常工作[87],经过30年的积累,世界不同人群几乎均有相应的CE-STR 群体遗传学数据,我国数据库中亦储存有大量CE-STR 数据可应用于法医学实践。MPS 技术自2010 年用于法医STR检测,其成熟应用需要时间和实践,只要越来越多的实验室应用MPS 技术检测DNA 样本,收集MPSSTR 数据,就能逐渐建立起信息量更为丰富的MPSSTR 数据库。

将MPS 技术应用于法医学实践,需实现数据比对和共享,就每个STR 基因座的等位基因命名和注释而言,需采用国际化的统一标准化框架。所用命名法一方面应与各国家DNA 数据库和人群调查数据库中使用的基于CE 平台的STR 命名法相兼容,另一方面应包括MPS 所检测到的所有STR 相关序列变异(STR重复区和侧翼区),并允许不同法医实验室和数据库之间互相检索和查阅。就MPS-STR 数据标准化命名,ISFG 的DNA 委员会从序列信息、与参考基因组的对比和等位基因注释3 个不同水平提出了初步建议:

(1)进行MPS 分析时应输出STR 序列,并将其以文本形式保存于数据库中,以获得最大程度的有效信息。

(2)应用DNA 正链进行序列与参考基因组的比对。

(3)参考基因组GRCh38 或GRCh37 的选择对于标准化STR 命名至关重要。目前,建议使用新版本GRCh38 进行序列比对、定义STR 重复区域及输出碱基变异(如SNP)。

(4)对于目前以DNA 反链定义STR 重复区域的基因座,需要重新以正链定义,严格明确其起止位置基因组坐标。

(5)今后可能会采用更简易的MPS-STR 命名系统以达到沟通和数据交流的目的,为确保当前MPSSTR 数据能为将来所用,现阶段依然建议采用全面、完整的命名法。基于STR 序列信息将其命名为CE 中相应的依据片段长度的、描述重复次数的命名,即与CE 片段长度命名法相兼容,同时记录STR 序列信息,包括侧翼序列及其起止位置基因组坐标,如D13S317[CE12]-Chr13-GRCh38 82148025-82148068 [TATC]1282148001-A;
82148069-T。

(6)使等位基因频率数据库保持更新,以充分发挥MPS-STR 数据带来的更高的识别能力。

(7)未来法医学应用的MPS-STR 多重检测体系应保留现有遗传标记以实现数据对接,同时依据群体学、分子生物学、法医学研究者与生物公司之间的数据共享进行更多遗传标记的筛选。

(8)仍需努力确立统一的命名标准体系,实现全球人口数据库的兼容性。

ISFG DNA 委员会在2016 年的法医学MPS-STR命名规则[61]中特别提到,以DNA 反链进行基因组序列比对的23 个STR 基因座,转换为正链后,其中17 个存在潜在移码现象,并以D19S433、DYS389Ⅰ/Ⅱ和DYS385a/b基因座为例,详述了该情况。目前MPS 数据分析软件,如Converge v2.0,即应用该23 个STR 的反链进行对比,以保持与CE-STR 的长度分析结果相兼容。文中另以D18S51、D13S317和D19S433为例,说明了MPS 生成的详细序列信息在某些情况下也为描述既定的STR 重复基序带来了潜在困难。此外,文中还提供了法医学常用35 个A-STR、29 个Y-STR 和7 个X-STR 的STR 重复区及侧翼区(上、下游各50 bp)人类基因组参考序列(正链,GRCh37 和GRCh38 坐标)等信息。2018 年,PHILLIPS 等[62]对2016 年的版本[61]进行了修订和扩展,现共包括71 个A-STR、48 个Y-STR 和14 个X-STR 的上述信息及各自上、下游100 bp 的侧翼序列。目前,该STR 序列结构文件作为法医遗传学中进行MPS-STR 分析的最新参考标准,可在STRider 网站(https://strider.online/nomenclature)下载使用。

STR 标记的CE 基因分型文件主要包括样本编号、基因座名称和基因分型,也可添加峰高、所用STR试剂盒等额外信息。针对CE-STR 的等位基因,全球公认且统一为基于长度多态性进行命名,各法医实验室及STR 试剂盒生产公司均以此为标准。对于MPSSTR,尽管ISFG DNA 委员会的专家学者提出了一些建议和举措[61-62],但仍未有统一标准的测序平台和命名准则。鉴于世界范围内大多数国家仍在发展扩大其国家STR 数据库(主要为CE 数据),上述ISFG 建议使用的既与CE 命名相兼容又可收集所有序列变异的MPS-STR 命名法有利于STR 数据库的检索及法医学报告中MPS-STR 数据的应用。然而由于碱基序列的多样性,即使采用标准化的命名法,仅用较简短的文本字符来描述MPS 所识别的所有STR 序列多态性等位基因仍然非常困难。

YOUNG 等[88]认为,基于ISFG 发布的MPS-STR 相关命名格式虽然满足了序列特异性标记的要求,但对于软件识别或数据库保存来说该格式长度过长,于是提出了序列标识符(sequence identifier,SID)编码法来解决这个问题,该方法使用哈希函数SHA-256 将DNA 序列转换为54 或55 个字母的SID,生成用于标识单一来源或案例样本STR 序列的唯一短标签。根据具体应用,某样本STR 基因座的序列特异性等位基因可仅用2~3 个SID 字符进行标记(如“6TK”表示TH01[CE6]-Chr11-GRCh38-2171088-2171115[AATG]6),从而使记录格式紧凑。SID 标签亦可用于识别和过滤非等位基因序列(如stutter),并且具有区分等位基因与非等位基因序列的能力。该编码法还适用于接受任何字符值(而非数字值)的软件进行下游混合物分析,如与ArmedXpert 软件中MixtureAce 插件的联合应用。

JUST 等[89]建议使用最长不间断延伸(longest uninterrupted stretch,LUS)的方法表示STR 重复区域内的序列变异,有利于NGS 分型结果在概率解释中的分析应用,避免了进行字符串搜索所带来的算法复杂性。LUS 指STR 重复区域中连续相同的重复基序最多的重复次数,联合命名由基因座名称、基于长度的等位基因和LUS(以粗体表示)组成,如D12S39120_12 表示D12S391基因座上[AGAT]12[AGAC]7AGAT等位基因。然而一些基因座的多个等位基因可能具有相同的代号,如上述D12S39120_12 也可表示[AGAT]12[AGAC]8。通过将其命名扩展到二级或三级参考区域,该联合命名法可表示80%以上MPS-STR的等位基因。但该方法在少数基因座上无法区分等位基因,以D21S11为例,该基因座上存在5 个常见基序的变异(以粗体n表示)[TCTA]n[TCTG]n[TCTA]nTA[TCTA]nTCA[TCTA]2TCCATA[TCTA]n。LUS命名等位基因的方法保持了先前基于重复基序的命名法,因此能够与现有STR 数据库相兼容,且LUS 的长度本身保持一致,不会因NGS 体系或分析软件的不同而改变。此外,当分析软件(如LRmix Studio v2.1.3)不要求等位基因只能为整数时,可应用LUS 法标识等位基因,其包含的序列信息有助于对样本(单一或混合来源)STR 分型结果的解释。GILL 教授亦将LUS 等位基因命名法应用于EuroForMix 软件[90],证实了该方法的适用性[91]。虽然该方法无法表示STR 侧翼区域的碱基变异,但很大程度上弥补了目前基于STR 长度的概率解释系统的不足,促进了MPS 技术在法医遗传学实践中的应用。

DNASeqEx 项目提出了将Nomenclature Authority(NOMAUT)系统用于STR 数据库的保存和对接[92],该系统是一个在线存储库,建立在已知的序列变异STR基因分型结果上,可较为便捷且安全地输入新增数据。已知序列变异的STR 结果和其对应的CE-STR 结果形成目录,可进行序列特异性等位基因的查询;
允许用户上传序列,以小写字母表示数据库中新的序列特异性等位基因(如D1S165611+a),若为数据库中已有等位基因则转换为大写字母(如D1S165611+A),经确定后纳入系统目录中保存,完成系统的自我更新。为确保其可靠性和实用性,NOMAUT 被构建为一种网页服务,而非本地软件,并允许各MPS-STR 数据分析软件对NOMAUT 数据进行调用,另外,其也可离线使用,但需保证数据库定期更新。NOMAUT 系统将来可作为STR 序列等位基因的集中存储库,从而在世界范围内保证MPS-STR 数据的一致性、稳定性和高质量。

KNIJFF 教授提出,可以考虑应用类似人类白细胞抗原(human leucocyte antigen,HLA)系统的等位基因编码系统[93]命名MPS-STR,其优点是STR 序列多态性等位基因可以重新编码为很短的等位基因代号,方便机器对比和储存,如上文提到的SID 编码。但同时,法医工作者需要很长时间去识别这些编码,且编码的应用使MPS-STR 数据失去了与CE-STR 命名的直接关联,也无法直接观察到序列变异。其实,简化STR 序列信息并不是必需的,用较长而完整的文本字符储存等位基因不失为一种方法。总之,我们依然期待早日能够达成一个信息全面、实用的法医MPSSTR 统一命名系统,以避免模棱两可、不准确、不一致的等位基因命名,甚至可自动命名基于序列特异性的MPS-STR等位基因,从而便于法医学工作者进行MPSSTR 数据的有序储存、搜索和更新。

在MPS 技术替代CE 成为常规的法医遗传学检测工具之前,我们仍有很多工作要做,主要涉及完备的使用指南、规范,以期为所有可能的技术问题、结果解释和报告内容提供参照标准。此外,还需解决诸多实际问题,包括如何将MPS 检测的STR 序列多态性等位基因(包括侧翼区域的遗传变异)与各国现有STR 数据库相兼容等。与CE 技术相比,不同的MPS 检测平台、分析软件无疑会产生更多的问题,使得制定统一、完备的规范和标准变得更加复杂。目前主要涉及以下问题:

(1)基于MPS 技术的STR 等位基因应确立统一命名方式,命名需尽量能够观察到遗传变异的全部信息而无需回溯原始测序数据。

(2)对MPS 相关运行参数的建议,包括目标靶点的最低测序深度、碱基识别正确率、碱基识别质量等。

(3)对于法医学中不同类型样本获得可靠STR 等位基因所需的最低测序深度的建议,如分别针对构建数据库的参考样本、单一来源样本或犯罪现场混合样本的建议。

(4)有关非目标靶点的测序读数、测序产生的错误读数等的建议,包括用于标记样本的barcode 和index 的读数等。

(5)关于所使用MPS 技术的建议。reads 1 和reads 2 分别进行正、反向测序,存在STR 重复序列结构难以组装和比对的问题;
只使用正向测序结果,其长度取决于MPS 平台,存在能否检测PCR-STR 扩增子的全长等问题。

(6)关于存储MPS 所得结果的格式的建议。

(7)针对MPS-STR 分析软件提出要求。之前开发的软件,多采用与CE-STR 结果相匹配的命名方式,建议调整为基于MPS 技术的新等位基因命名法;
至少应输出“(6)关于存储MPS 所得结果的格式的建议”中的格式。

迄今为止,法医学研究者们在应用MPS 技术检测STR 标记方面已然取得了阶段性成果。针对不同生物公司开发的用于检测不同STR 标记的商品化MPS-STR 体系(或STR 联合SNP 检测体系)进行了充分的验证研究,结果说明这些体系灵敏性高,能够得到可重复、可靠的结果,证实了MPS-STR 检测能够达到法医DNA 工作的要求。研究中几乎都进行了MPSSTR 数据与CE-STR 数据的一致性对比,有助于MPSSTR 数据与现在CE-STR 数据库的对接。MPS-STR数据分析是研究工作中的一大难题,除了商品化分析软件,也涌现出很多优秀的可用于自主构建MPSSTR 体系的数据分析软件和方法,这将在很大程度上促进MPS-STR 研究的发展。近年来基于MPS-STR数据的群体学调查研究表明,相对于常规的CE 检测,MPS 技术提高了STR 标记的多态信息含量和杂合度,检测到大量新的序列特异性等位基因,提高了STR 体系的系统效能,这不仅有利于法医学个体识别和亲权鉴定,也为混合物的检测和解析提供了新的机会。此外,在MPS 检测中使用较短的扩增子有助于法医工作中降解检材和微量检材的检测。ISFG和其他法医学组织为MPS-STR 命名方法、数据储存、与CE-STR 数据库对接等问题做出了努力,STRSeq[64]和DNASeqEx[92]等合作项目促进了法医工作者的交流。尽管针对上述待解决问题,我们仍然缺乏足够且可靠的经验和数据,然而世界范围内越来越多的法医实验室开始关注并开展MPS 技术的研究,期待法医工作者坚持不懈,共同推动MPS 技术在STR 标记基因分型方面的应用与发展。

猜你喜欢 法医学等位基因法医 留学教育与近代法医学的建立神州学人(2018年9期)2018-11-22用数学思维分析遗传的基本规律新课程·下旬(2018年9期)2018-11-14Goldeneye 20A试剂盒检测发现TPOX基因座三等位基因一例中国医药导报(2018年14期)2018-08-30法医的正义之路求学·文科版(2018年5期)2018-07-12法医学:解密那些“不可告人”的细节传奇故事(破茧成蝶)(2018年4期)2018-06-11关于我国法医学人员培养制度的困境与改革环球市场信息导报(2018年6期)2018-05-23科学神探,真相即将揭开课堂内外(初中版)(2015年2期)2015-09-10揭露真相的“医生”求学·理科版(2015年4期)2015-04-23爱笑不爱笑,基因早知道青少年科技博览(中学版)(2015年10期)2015-01-11孟德尔定律的扩展及其应用中学生物学(2008年6期)2008-08-29

推荐访问:平行 遗传 标记