生物表型和表型组标准化的现状与展望

张永卓, 高 颖, 牛春艳, 傅博强, 王 晶

(中国计量科学研究院, 北京 100029)

人类对生命的认知是从宏观到微观,再从微观到宏观,最终回归本源。对生物的了解也是先通过《植物名实图考》、《伯杰氏手册》等生物外部特征的描,再到《物种起源》、“孟德尔遗传定律”等宏观规律, 探索认识生物生命本质。随着近代科技的进步,人类对生物内在机理的研究也愈发深入,先后提出了进化论、DNA双螺旋、中心法则等。科学家们试图通过探索其机理的改变,解析特定的生物学表观现象[1]。随着遗传信息研究的逐步深入,学者们愈发认识到生物表型特征和性状对认识生物生命的重要性;
建立生物表型与遗传信息的关联性,将是生物学研究的一个重要命题[2]。但由于缺乏标准和规范,虽然表型相关的数据众多,依然无法准确地理解基因和环境因素对生物体的复杂影响[3]。直到二十世纪末期,“生物表型”的概念才被正式提出[4],同时遗传学家们提出“表型为王,基因为后”的观点,这也从另一面验证了表型研究的重要性。

随着高通量测序等现代分析技术的不断进步,各种组学研究蓬勃发展[5~7],带动了生物表型中的表型组发展。“人类基因组计划”、“人类微生物组学计划”等大型组学研究的相继完成[8],使得人们对生命科学有了全局、系统化的认知,生命科学进入“后基因组时代”[9]。但是从内在机理的研究向表型结果的转化过程却参差不齐,很多数据或者结果无法得以有效解释。而将多种表型分析技术和系统的表型信息结合在一起的表型组毫无疑问将是联系生物体基因和表型的桥梁,其可为功能基因组学的研究提供有效支撑[10]。结合组学、高通量分析技术、人工智能和大数据分析的表型组发展迅速,同时必将产生大量异质性、多维度的表型数据,由于标准的缺失势必导致数据的准确性、可比性和可融合性受到影响,共享和合作创新受阻,最终延缓生物产业的进步和升级。

本文从标准化的角度,对生物表型相关概念、发展以及生物表型组标准化面临的问题进行思考与展望,以期为生物表型组标准化的发展提供借鉴进而带动生物计量标准的发展。

在早期的研究中,由于欠缺分子生物学技术,无法从基因水平上进行探索,因此将生物及其后代的性状作为影响因素的指标,这时表型的概念还仅限于外在形象。而随着研究的不断发展,“表型”出现的频率也逐步升高。但由于其包含范围很广,生物表型及生物表型组的概念至今仍没有一个明确的定义。

基于现有研究,生物表型是指具有特定基因型的生物体(植物、动物、微生物等)受基因和环境共同影响,表现出来的可观测的性状特征[11,12]。对于一个生物而言,表型表示某一特定的物理外观或化学组成,如植物茎节高度、人的血型、微生物厌氧等[13]。表型主要受生物的基因和环境共同影响,以动物为例,如形态和习性这类表型容易受环境因素影响;
而毛发颜色和瞳孔颜色则受基因影响,且很少会被环境改变。表型由微观到宏观还可以分为分子表型、细胞表型、组织表型、器官表型以及整体表型。而生物表型组是指在遗传和环境因素的影响下,形成生物体全部特征信息的集合,包括外部形态、内在生理、心理行为和分子构成等各种特征集合[14]。表型组学(phenomics)最早是在1996年被提出,随后在动物、植物、微生物以及人等相关领域不断扩展[15]。由此发展,生物表型同时涵盖了表型组数据信息。生物表型为在遗传和环境因素的影响下,生物表现出来的可观测的性状特征,形成生物体(全部)特征信息及组学的集合,包括细胞、形态、分子水平、空间行为等生物表型的数据集合,以表征生物特性及生物体质量的关系。

3.1 生物表型(组)研究的发展

生物表型组包含众多研究方向。其中动物表型中人类表型组最为重要[16],植物表型组的发展最为完善[17]。植物表型组作为术语定义提出较早,且容易被监测,已进入大面积产业化应用,向着规模化、自动化方向发展[18];
同时涌现出多个可以进行大量植物性状评价的高通量技术平台,为植物研究、作物培育等产业提供了丰富的数据支持[12,19,20]。关于动物表型组研究,我国早在“十二五”规划中就开展以灵长动物和猪为模型的表型与遗传研究,通过描述表型、遗传型及其在环境中的响应,阐明生命表型的形成规律和调节方式。而作为生命健康的核心,人类表型组的发展最为详尽、系统,包含了人类“生老病死”的全过程,融合疾病、临床、行为等生物表征,通过不同的研究方法,从宏观到微观对人体的所有生物学性状进行系统测量和分析[21]。其中,电子病历就是一种综合利用表型资源服务健康医疗的模式,储存在电子病历中的临床表型特征一方面有利于加深人们对疾病基因基础的理解,另一方面可以验证过去发现的遗传表征是否与特定疾病、基因具有显著相关性。同时在日常生活中同样产生了大量的表型数据,如手机、运动手表等便携式设备对生理指标的采集,Health Kit、Research Kit等信息综合平台的发展以及通过表型药物筛选平台发现的新药数量逐年升高[22],这些都说明随着表型数据的积累,生物表型组的作用越来越大,表型及其应用将对日常生活、医疗卫生、科学研究以及生命规律等产生重要影响[23,24]。

同时,生物表型组也是多维度的。利用宏测量技术(高通量的表型分析技术)结合数据挖掘方法,从微观到宏观对生物体的物理、化学和生物表征进行系统性测量,进而描绘基因、环境与表型之间多尺度的关系,构建生物表型组跨尺度、高度复杂、动态的系统框架。同时,表型组学的研究在逐步深入化,分为深度表型(deep phenotyping)和表型组分析(phenomic analysis)两部分[25,26]:深度表型指基于个体表型描述的全面精确深入表型分析;
表型组分析意指利用聚类分析等分析方法从复杂多维数据中提取数据子集之间的潜在关系,并利用文本挖掘、通路分析等策略进一步细化基因和表型的关联,即一方面在单独表型特征上进行精准研究[27],另一方面将各个表型同基因形成连锁分析[28]。

测序成本的不断下降,各种组学数据的日益积累,表型数据和组学数据的融合已成为大数据领域不可阻挡的趋势之一,表型组的发展也面临多融合、精准应用的挑战。根据基因组及表型组等多层次信息,抽提组学特征,形成一套完善的知识图谱尤为重要。而随着表型组的发展,也出现了更多高通量、多维度以及智能化的技术。例如在特性表型数据采集中出现一些专门为叶面积、株型开发的自动化图像分析技术,如三维三光彩色成像、荧光成像、热成像、成像光谱[29~31]等。同时还演化出多维度的检测生物表征的手段,如质谱、核磁共振、表型微阵列技术等。而在高通量的大数据处理方面,产生如自动表型分析平台、高通量高光谱成像系统、高通量叶评分仪[32]、水稻产量性状评分仪、高通量水稻表型设施[33]等自动平台。从测量方法到数据处理,技术的进步也推动生物表型组从外部物理数据向内部生理生化指标,从低水平到高通量,从人工采集到智能获取的过程发展。

3.2 生物表型组发展遇到的标准化问题

前期的生命科学研究通常以基因层面进行,而现阶段由于缺少对表型标准化的定义导致表型数据杂乱,基因型和表型的连接存在障碍,限制了表型组数据的应用。虽然现在表型组逐渐受到关注,但现有的技术和方法无法满足高通量和高质量分析的数据一致性和规范性的需求,在各种各样的平台进行数据的采集和积累的同时也暴露着巨大的不互认问题,而最先体现的是定义不统一问题。

3.2.1 基础性术语定义缺乏标准化

从表型组的发展不难看出,其涉及领域众多且跨多学科。但是正是由于这一特征,导致从一开始很多术语定义及数据处理都是基于各个学科建立的,缺乏统一标准的术语定义。而基础术语定义是标准化工作的基础,没有统一的语言、共识的定义,无法推动表型组高效有序发展。

以人类科学为例,其表型定义具有复杂性和模糊性特点,原因在于不同时期表型特征的适用范围不同,或随着科技及检测手段的提升,很多表型定义的指标和含义也有所改变,而基础信息和数据来源的多样性,也极大的增加了不确定性(图1)。在临床方面,健康人群及患者基因数据的积累,最终会形成参考数据库,而准确可靠的临床表型定义至关重要,因此,需要找到共同语言来建立相应的连接。一个典型的例子,就是根据不同类别确定糖尿病队列,分类标准包括诊断标准、实验室标准和药物治疗标准,在一共24 520名患者中,完全符合3种标准的仅占38.50%,还有36.17%的患者只占3种分类标准的1种[34]。这种不同定义标准导致很多患者无法准确确诊,同时也会导致后期数据分析和表型统计时的资源交叉以及数据重复问题。

图1 表型的不同术语定义Fig.1 Different definitions of terms for the phenotype

生物表型的定义直接会影响生物表型组的发展。因此如何基于不同领域、不同检测方法,特异性地建立表型特征的术语定义集,将是表型组发展的基石。

3.2.2 特征数据采集缺乏标准化流程

由于表型范围涵盖广、特征信息不明,导致描述表型的数据大量堆积。虽然科技进步降低了采集成本,但表型特征的测量依然落后[12,35],生物特征的复杂性和多维性也对表型测量、分析提出了挑战。很多个体表型信息多样、模糊,真实完整的特征包含了比实际测量更多的表现型,即使对于特定的性状,也无法确认待测特征的最有效子集。同时特征采集方面更是缺乏国际统一标准,没有明确的指标,部分表型数据的质量还受人工主观因素影响[36],无法实现连续测量。如何提高特征采集的准确性,如何定义采集参数,精确进行表型分类以及质量评价,已成为制约生物表型组发展亟待解决的问题。从表型到表型组,表型特征数据采集标准化将直接影响表型组数据的分析和应用。

3.2.3 大数据信息分析急需标准化

无论是植物表型的大面积信息采集[37],还是模式动物生物特征的收集都产生了大规模的数据。与传统人工获取数据不同,现在的表型组研究通过机器人、智能AI、自动化、遥感等技术手段,极大地提高了数据的通量[35],使得表型组学进入了数字化时代[38]。而多维度的数据在大大丰富了表型研究内容的同时也增加了数据整合的难度。面对如此巨大的数据积累,数据的有效性、数据类型的共享和通用性、数据分析和利用的统一性,将是生物表型组发展面临的严峻挑战。早期基因组研究发展的如火如荼,而面对指数级增长的资源导致很多数据无法共享及分析,最终导致了极大资源浪费。在2019年,国际标准化组织ISO/TC215“健康信息学技术委员会”紧急成立了“基因组学”分技术委员会(SC1),意在推动各组学标准化,制定包括基因组序列变异标记语言、组学标记语言、二代测序临床基因组数据共享规范、DNA测序质量控制等标准。因此,针对数量级更大的生物表型组,构建或提出针对不同领域的特异化数据库的数据处理规范,提高数据共享和利用率将是之后标准化工作的重点之一。

3.2.4 数据融合与产出应用需要标准化

表型组学的研究才刚刚开始,且表型复杂的特征信息也伴随着很多问题。表型信息与基因之间的关联和连锁研究日益活跃,同时在数据融合的时代表型组的研究将推动更多产业的应用,因此在数据处理、特征精度和准确性方面的需求更加强烈[39]。而多源数据融合涉及两个层面:一方面,研究者需将同一检测特征在不同时期获取的数据进行融合,从而实现全生育期性状或全周期的动态监测和分析;
另一方面,针对多源表型信息,如何进行不同维度、不同尺度的数据融合,尤其是在环境因素易变,缺失参照标准的多源数据,则是研究者进行从形态到生理乃至机理的综合型研究所面临的难题之一。特别在统计学里“大p小n”(Large phenome number and Small sample number,LpSn)和“高维数,小样本”(High dimensional and Small sample number,HdSn)的问题[40]在表型组中特别严重。多数据导致高维度,而传统的降维分析又导致很多信息失真[41]。

如何将表型组数据和其他组学数据进行融合,对生产应用提供指导,一是需要标准化的规范指导,二是需要结合标准物质/标准样品的精确数据。正是在大标准体系下才能为推动生物表型组更好、更快发展的提供重要驱动力。

基于以上因素,不难发现在生物表型组发展、推广和实际探究中仍存在很多问题,缺少术语定义、特征采集参数、数据处理分析标准、检索记录规范等,这导致数据无法共享、互认的同时也制约了生物表型相关产业的发展。例如果蝇翅膀表型采集数据处理的过程中,不同的分类算法、测量方法,如显微镜和用于捕捉图像的软件,提取坐标信息以及放大参数设置等的变化都直接影响了最终的结果统计。更重要的是,由于缺乏统一的规范和质控,表型信息碎片化严重,无法进行大规模标准化的衡量和评定。因此要想促进生物表型组向更有序、更高效的方向发展,系统化的标准就显得尤为重要。

现有标准化技术委员会以及生物相关标准只针对生物样本、生化分析、体外诊断产品等方面,目前还没有能够针对生物表型(组)领域的标准化机构和技术委员会,但国际上多个领域已经开展了表型(组)相关标准化工作及本体系统的建立工作(表1)。如以大量集成术语系统为主的UMLS和BioPortal;
以表型术语的整理和完善为主的通用集成系统人类,包括表型本体论(human phenotype ontology,HPO)[42]、哺乳动物表型本体论(mammalian phenotype ontology,MP)、蠕虫表型本体论(worm phenotype ontology,WPO)[43]、酵母表型本体论(yeast phenotype ontology, APO)[44]和果蝇表型本体论(fly phenotype ontology,FPO)等。而在临床表型术语标准方面,有医学系统命名法-临床术语(SNOMED-CT)、观测指标标识符逻辑命名与编码系统(LOINC)、RALDEX影像学结构化报告、国际疾病分类(ICD)等。通过分析发现,虽然表型本体众多,但本体分类不明确,其包含术语数量悬殊,语义交互性存在缺陷,映射困难、术语表达不统一的问题。如HPO映射到UMLS中的术语占71.2%,而MP仅占11%。同时语义类别不清,有的为症状表型,有的为理化指标、医学表型。因此在分析各类表型本体数据的基础上,加以整理和归纳表型本体内容并实现共识的基础标准化工作非常重要。

表1 部分术语本体库基本信息Tab.1 Basic Information of Ontology Databases

在我国,以HPO为框架,联合相关领域专业人士,逐步建立中文临床表型术语标准平台(CHPO),并让其指导、服务于中文使用者的临床和科研工作。表型组相关标准化工作也在不断推进,2018年“人类表型组计划国际协作组”(International Human Phenome Consortium,IHPC)成立,促进了标准化工作组的成立。2018年,中国计量科学研究院向国家标准化管理委员会提交了成立全国生物表型标准化技术委员会的申请,2022年,国家标准化管理委员会对全国生物表型标准化工作组的筹建进行了公示。与此同时,中国也在大力推动国际标准化工作,提交成立ISO表型委员会的建议,如在2019年中国计量科学研究院联合复旦大学等单位,通过国家标准化委员会在ISO提出成立国际“人类表型组标准化技术委员会”(ISO TS/P 277),获得了包括法国、德国、意大利、西班牙等18个国家支持。在推动“人类表型组标准化技术委员会”的过程中,各国普遍认为人类表型组标准化工作非常重要,这将促进全球数据的整合、共享及挖掘,加速此领域的发展及应用;
同时表型组学涉及多学科,与纳米技术、生物技术、计算机科学及认知科学相关,代表生命疾病和机理研究的新方向,对这些技术进行术语定义很重要。另外,产生高质量及一致性数据对于元数据应用于人工智能很重要,其标准机构涉及了国家层面的利益相关方。

生物表型组的发展离不开行之有效的标准化工作进行配合。搭建术语分类、表型测量和表征参数、数据以及跨尺度关联分析等相关标准,将基因组和表型组有效、准确地连接起来,形成一个表型、基因、环境关系的知识图谱。在统一的标尺和标准化体系框架下,将有利于生物表型组数据的安全、可靠、共享,具有巨大的市场和应用前景。

生物表型组的发展才刚刚开始,但其对科研及应用已产生了十分深远的影响[45]。随着大数据、高通量、多组学的信息不断扩展,生物表型(组)的标准化工作已提到议事日程,需要从如下几个方面进行:(1)建立分层次的生物表型组标准化体系。一是术语定义及分类标准,本体、特征参数等;
二是方法及手段标准,如队列设计、采集手段、表征方法、分析工具等;
三是数据结果分析标准,遵守最小信息(minimum information,MI)、数据格式(data format)等要求;
四是数据融合共享应用的标准促进数据共享并集成“云技术”。最终解决有效存储、管理和检索等问题。进行高效、快速表型分析的前提依然是表型语义的统一、信息采集的一致以及数据处理的标准化。(2)建立生物表型组数据质量控制的标准化流程,以期提高数据质量,保证数据的高精准。表型的观测和分析不仅要有明确、固定和量化的测量标准要求,更重要的是准确性和精度。针对种类繁多、特征各异的表型信息,进行特定参数的设定。精准的信息采集才可最大程度减少冗余数据的积累,最高效利用和整合数据资源以期将表型、基因和环境形成准确的对应关系。(3)建立多维质控标准。由于生物表型组包含关键点众多,更应增加多维度质量控制的标准化工作,包括表型采集质控、数据处理及分析质控等,其中数据质控是表型测量与表征的核心内容。因此需设立质控点、关键参数以及开展质控评定,进而对生物表型的发展提供有力保障。只有在对表型数据进行标准化采集、处理、分析、应用的基础上,同时对过程进行多维质量控制,才能更加准确、系统、高效地对生物表型组进行研究。因此未来生物表型(组)标准化的研究制定将成为生物表型(组)领域发展必不可少的重要方向之一。

猜你喜欢 组学表型术语 基于衰老相关分泌表型理论探讨老年慢性阻塞性肺疾病患者衰弱发生机制中国现代医生(2022年21期)2022-08-22影像组学在肾上腺肿瘤中的研究进展昆明医科大学学报(2022年3期)2022-04-19东莨菪碱中毒大鼠的代谢组学昆明医科大学学报(2021年4期)2021-07-23影像组学在核医学影像中的应用进展智慧健康(2021年33期)2021-03-16体型表型与亚临床动脉粥样硬化有关天津医科大学学报(2021年1期)2021-01-26蛋白质组学技术在胃癌研究中的应用天津医科大学学报(2021年1期)2021-01-26慢性阻塞性肺疾病急性加重期临床表型及特征分析医药前沿(2020年20期)2020-11-10作物表型组学和高通量表型技术最新进展(2020.2.2 Plant Biotechnology Journal)三农资讯半月报(2020年2期)2020-03-09贸易术语修改适用问题探讨中国外汇(2019年13期)2019-10-10翻译适应选择论下中医术语翻译探讨云南中医学院学报(2012年3期)2012-07-31

推荐访问:表型 标准化 展望