功能位点基因芯片是指芯片设计所包含的位点全部是能够影响转录水平或蛋白活性的功能突变;相比普通的标记位点基因芯片,功能位点基因芯片在位点选择上更科学,直接影响生命调控过程,位点携带的功能信息含量更高。
标记位点基因芯片,其标记位点效应取决于与之连锁的功能突变,由于连锁紧密程度在不同世代、不同群体中都会不同,导致了标记位点效应不稳定,难以实现数据联合分析,不利于基因组育种效率提升。功能位点基因芯片,携带的是功能突变,能够有效摆脱连锁不平衡的限制,突变位点效应在不同群体中相对稳定,这对于多世代、多群体数据整合分析非常有利,能够有效提高关键基因挖掘和基因组育种效率。
相比标记位点基因芯片,功能位点基因芯片更接近“理想基因芯片”。理想基因芯片是指芯片位点正好为所研究表型全部QTN位点的芯片,然而,育种目标性状往往较为复杂,且受微效多基因效应影响,获取所研究表型的全部QTN来设计一款理想基因芯片是很难的。但QTN一定是功能突变,这一点是确定的。因此,相比标记位点基因芯片,功能位点基因芯片理论上包含更多QTN位点,更接近理想芯片。另外,相比全基因组测序,功能位点基因芯片包含的QTN数量会少一些,但其无效的噪音位点也大大减少,而且在存储和计算成本方面有很大的优势。理想基因芯片、功能位点基因芯片、标记位点基因芯片、全基因组测序之间的关系如下:
1、基因组组装
主要针对没有参考基因组的物种。依据要求设计测序方案,以二倍体核型物种为例,如仅进行一致性基因组组装,即筛选同源染色体中的一份拷贝作为代表组装到染色体水平,至少需要联合PacBio HiFi+Hi-C+WGS技术;如需进行单体型基因组组装,除了一致性基因组组装数据外,还需引入父本和母本的高深度WGS数据。
2、基因组遗传变异检测
如果所研究物种没有高质量遗传变异数据库,或者已有遗传变异信息不能有效囊括某些特有品种时,则需从头鉴定基因组遗传变异。具体方法:通过高质量群体基因组重测序数据鉴定所研究物种/品种的SNV、Indel及SV。鉴于二代测序数据检测SV存在敏感性低的问题,可挑选代表性个体进行三代PacBio HiFi重测序,提高群体SV的检测效率。
3、功能基因组注释
(2)基因组进化保守元件:基于保守的概念,在多个物种基因组集合中检测不同保守阈值(完全保守、极为保守、显著保守)的基因组序列。
4、芯片候选功能位点筛选
注释全基因组遗传变异并赋予特征标签,如基因间区、内含子、同义突变、错义突变、无义突变、移码突变、群体最小等位基因频率分位数、调控元件、进化保守、候选功能突变。联合所有基因组特征权重,逐一计算全基因组遗传变异特征总得分。依据遗传连锁信息,计算基因组单倍型组,并从每个单倍型块中挑选特征总得分最高的遗传变异作为该单倍型的标签遗传变异和芯片候选变异位点。
5、全基因组捕获探针设计及评测
综合考虑探针序列长度、GC含量及特异性,设计全基因组探针序列库,并通过深度学习模型预测所有探针捕获效率。
6、确定芯片功能位点及捕获探针序列
全面考虑芯片位点特征分值、基因组代表性、芯片探针捕获效率、芯片探针密度、芯片大小等信息设计该物种第一版本功能基因芯片。
7、育种评估及迭代优化
结合第一版本功能基因芯片群体实测结果,包括实际探针捕获特异性和效率、位点完整性、多态信息含量及基因组评估准确性等信息,迭代优化芯片位点和探针序列。