Annu. Rev. Genet. 2013. 47:97–120
1. 研究背景和目的
达尔文和华莱士在1868年就提出了自然选择的原则,即能够提高个体生存和繁衍机会的特性,随着时间的推移在群体中的频率会越来越高。
此后,进化生物学家一直致力于寻找进化的证据以及背后的适应性。动植物育种家是最早发现进化性状的,因为他们目睹了他们的群体在人工选择下发生的重大变化。
在遗传水平上评估选择的证据代表了一种巨大的进步,利用群体遗传学数据集的计算分析提供了严格的统计学方法来推断自然选择行为,这代表着进化生物学将不再只是一个“故事”,现代综合进化理论也表明,随着技术和方法的进步,达尔文提出的选择概念在真实的群体中被量化和测量已经被充分地实现了。
早期研究主要利用正向遗传学方法,首先假设某个性状是适应性的,然后揭示性状变异背后的分子机制。随着基因组学技术的发展,我们可以更进一步检验适应性状的选择证据,通过基因组扫描发现候选区域。
鉴定这些候选区域意义重大,不仅是因为可以揭示进化和物种历史,而且还因为它们代表了有生物学意义的变化。
针对基因组上受到自然选择区域的鉴定,已经发展出了很多方法,本文对这些已有的方法进行了一个总结概括,讨论了利用这些方法进行研究时受到的挑战,并且尤其强调了后续对假定的选择基因进行功能验证,以及使用选择扫描作为假说生存工具调查进化历史的重要性。
2. 主要结果
2.1
Modes of Selection
自然选择在基因组层面,指的是等位基因非随机,有差异地扩散。最简单地,等位基因有利并因此传播(正选择),或者是不利的被清除(纯化选择)。
一般来说,随机突变大多是有害的,很多新等位基因在其达到在群体可被检测到的频率之前,就会通过纯化选择在gene pool中被清除,这种有害突变的持续清除被称为一种特殊的纯化选择,即背景选择。
此外,更微妙的正、负选择配置导致了其他常见的进化趋势,其中之一就是平衡选择,即多个等位基因在 gene pool 中维持在一个可观的频率内,其可能是杂种优势或频率依赖选择的结果。
如果等位基因的维持有助于相反的表型效应,即两个相反的表型具有较强适应性,这种趋势进一步被描述为多样化或歧化选择。
如果相反,中间表型被偏爱时,不论是通过共显性等位基因下的平衡选择还是通过中间表型下等位基因的正选择,这种趋势被称为稳定选择。
但是,尽管由于选择模式很多样,但研究者通常关注的是正选择,一方面是正选择容易在基因组上留下footprint,另一方面正选择被认为是适应的主要机制,本文讨论了鉴定正选择信号的不同方法。
2.2 DetectingSelection at the Macroevolutionary Level
在宏进化水平检测选择的方法主要是取决于相关类群中同源性状或序列的比较。这些方法识别出可能具有功能的序列,然后在进化速率中寻找谱系特异性的加速。
1)Gene-based Methods。最广为人知的大概是 Ka/Ks,该统计量通过比较同义突变与非同义突变率的差异。如果该基因持续受到正选择,那非同义突变应该远大于同义突变;当 Ka/Ks 的值较小时,表明该基因可能是受到负选择的。
还有一种方法,MKT检验,不仅利用物种间的差异数据,还利用物种内的多样性数据。其原理是比较种间和种内两个Ka/Ks值,如果是中性的,二者应该相等;如果种间的比值较大,表明物种间受到了正选择;如果种内的比值较大,表明存在平衡选择或种内在弱的负选择下存在过多的不适应变异。
2)Other Rate-based Methods。HKA检验和MKT类似,考虑种间差异和种内多样性。其检验固定的种间差异(D)和种内多态性(P)的比值,D/P,零假设(中性)D和P都是位点突变率的函数,而该突变率至少从物种分化后就大致保持不变。利用拟合优度检验可以检验其偏离中性D/P比值的情况。值较大表明促进物种形成的变化加速(物种间的定向选择),或者物种内的多样性减少(物种内的定向选择);值较小表示种间存在平衡选择。其优点是不需要序列必须是编码区,但编码区的中性进化速率更容易推断。并且,近来的研究已经扩展了这一方法,能够通过检验多个位点,在考虑突变率变化的情况下获得一个谱系预期的D/P比值。
其它研究有利用基因组数据来识别基因组中的一些元素,这些元素在不同物种之间高度保守,但在特定物种或谱系中显著加快了替换速度,类似的方法已经应用在鉴定人类和灵长类动物的一些特有位点的进化,和细菌进化的理解中。
3)Phenotypic Methods。比较近缘物种并鉴定显著差异的方法也可以用于表型。在许多近亲物种中的保守特征(可能是功能性的)中,只有少数几个表现出极端不同的特征是自然选择的strong candidates。基因的表达水平也属于表型的一种,并被应用在很多研究中。此外,在不同谱系中反复出现的等位基因或性状表明了趋同进化的作用。该特征已经在一些形态特征中,以及病毒和细菌的进化中被发现。
2.3 Detecting Selection at the Microevolutionary Level
正选择会造成有益等位基因在群体中频率快速增加或固定,当一个有益等位基因和其同一单倍型上其它变异达到较高频率时,会在该基因附近造成群体水平的多样性降低。该降低会持续到重组和突变使得所选位点的种群恢复多样性为止。检测这种 selective sweep 同样有很多方法,本文接下来对此进行讨论。
1)Frequency Spectrum–based Methods。一个受选择的基因和其附近区域在群体中固定时,会改变群体内该等位基因的分布。这一sweep会造成受选择位点附近在群体内多样性水平的降低。因为其是最近才在群体内出现的,所以它们中的突变会少很多,但随着时间推移其多样性也会回到baseline。Tajima' D 是检测该信号最常用的一个指标。其通过个体间两两差异的数目和分离的多态性总量来量化,所以较小的D值表示稀有等位基因的过剩,可能是正选择或群体扩张的结果。
与此相关衍生出了一些不同的方法,比如 Fay & Wu’s H 等。selective sweep会通过增加衍生等位基因的频率造成频谱失真。在遗传漂变下,中性突变要经过很多代才能在群体中达到中等或高频率。但在selective sweep中,邻近的衍生等位基因也会通过搭便车达到高频率。Fay &Wu' H 通过比较个体之间成对差异的数量与衍生等位基因纯合子的个体数量,较小的H值表示高频衍生等位基因过多,在被检测区域存在正选择。
位点频谱分析对于其它选择也是适用的,比如平衡选择,过量的中频等位基因会扭曲 Tajima' D这样的指标,在中性条件下,长期的平衡选择会导致比预期更大的结合时间,从而导致更少的稀有等位基因。因此,有研究利用频谱方法和改良的 HKA 检验在人类基因组中寻找长期平衡选择的证据,以检测与所选变异相关区域的过多多样性。
2)linkage Disequilibrium–based Methods。当一个被选择基因在群体中频率快速增加时,它与邻近的搭便车变异位点会显示出强烈的连锁不平衡,直到重组打破这些关联。该被选择基因和其连锁的邻近区域组成了一个单倍型。故而寻找正选择也可以寻找扩大区域的强 LD。人们认为这些区域一定是迅速扩散造成高频率分布的,否则重组会造成 LD 分解,单倍型缩短。
基于LD的方法对于鉴定经历部分或不完全的 selective sweep 特别有效,即一个新突变在群体中达到适中的频率而非完全固定。具体已经开发出了多种方法,比如 LRH 检验、适合检验不完全 sweep 的 iHS、当 sweep 在群体中接近固定的 XP-EHH、以及 LDD 检验、IBD 分析等。
3)Population Differentiation–based Methods。一个等位基因的选择价取决于其存在的特定环境,不同群体受到不同的选择压力,故而适应性特征可能也会有所不同。如果选择作用于一个群体中的一个基因座而不作用于其它群体中的该基因位点,那么这些群体内的等位基因频率可能存在显著差异。
最常用的指标应该是 Fst,它比较了群体内部和群体之间的等位基因频率方差。较大的 Fst 值表示群体间分化较大,可能存在方向选择;较小的值表示两个群体是同质的,可能受到了平衡选择或都受到了定向选择。该方法可以检测许多类型的选择,包括传统的 sweeps,standing variations 上的 sweep,负选择等。最近一些年也提出了一些关于 Fst 的替代参数和变式。
4)Composite Methods。自然选择会在基因组上留下大量的footprints,因此,研究人员有时会将多个指标组合到复合检验中,从而达到更大的power和空间分辨率。这些检验有两种组合形式。首先,有些方法通过组合单个遗传标记来形成一个遗传区域的综合评分,这样尽管错误的标记可能出现在某一个位置,但一个连续的阳性标记很可能代表一个真实的信号。事实上,因为selective sweep影响整个单倍型,所以假设选择信号会扩展到一个区域内,使用复合方法可以提高power,降低假阳性,且先前讨论的iHS、XP-EHH、XP-CLR就采用了这种基于窗口的分析。后续介绍了详细的例子。另一种是针对单个位点的检验结合多种方法,利用不同信号的互补信息提供更好的空间分辨率。比如Tajima’s D和Fay&Wu’s H的结合。
2.4 More Complex Models of Selection
尽管 sweep 模型在一些物种中鉴定选择证据是有用的,但是在人类和一些其它物种内该 sweep model 并不适用,设计不同的检验鉴定不同形式的 sweeps 仍是研究的一个热点。在 selective sweep 模型中,一个新等位基因被立刻认为是有益的,更新该模型的方法是 delay the fitness benefit 和 allow for multiple loci。后面将讨论这两种可能性。
1)Selection on Standing Variation and Soft Sweeps。因为突变是随机发生而不是响应特定的选择压力,等位基因可能在它们不能立即受益的时候出现,这种中性的基因可能仅仅由于遗传漂变在群体内达到中等频率。如果环境压力后来改变使得该等位基因变得较为有益,这种情况就被称为“selection on standing variation”,该类型的选择会在2种情况下出现,当突变率和选择系数都很高时,以及当选择系数较低时。
在已有变异上的选择通常会和新突变相比较,前者更为 subtle 以至于难以被检测到。比如:standing variation 和其 neighbors 之间的 LD 会保持在 hard sweep 中,由于 standing variation有时间发生重组,会和不同的单倍型遗传背景连锁,从而 sweep 会 shallower。这种情况也以独特的方式扭曲了频谱:和 hard sweep 相比,selection on standing variation 会造成一个更大数目的和中等频率的中性位点的连锁。由于 hard sweep 和 selection on standing variation 之间信号差异是微小的,有研究提出了 ABC framework 来区分 standing variants 和 de novo mutations。selection on standing variation 有一种特殊的情况,就是 standing variation 出现在几种不同的单倍型背景下,这种现象被称为 soft sweep。
尽管 soft sweep 常被错误地用于更广泛的 standing variation中,但这两种还是要区分的,因为发展出来的检测它们的方法是不同的。通过计算模拟,有研究提出 soft sweep 在很多方面都和hard sweep 差不多,尽管基于频率的方法不能预测 soft sweep 的 power,但 LD 可以检测 soft sweep 的信号,类似于 hard sweep,被选择位点位于遗传多样性的底部,这些结果表明,识别soft sweep 的方法是可行的,但对于研究人员来说还需要微调基于 LD 的方法来检测它们。
2)Polygenic Networks and Ecological Methods。考虑到多基因网络和上位相互作用的重要性,研究人员提出选择可能作用于串联的多个位点,造成等位基因频率的 coordinated and distributed shifts。鉴定受选择的多基因位点的方法是结合生态信息。通过可能相关的变量将群体分类,然后在生态相似的群体中寻找共享的等位基因频率的变化。有研究将此应用在空间分析方法 SAM 中,利用多个单变量逻辑回归,检验等位基因频率和环境变量之间的相关。
生态方法的一个重要限制是依赖于用户指定的变量,这些方法存在因输入或省略的信息而产生偏差的风险。通过检验共享的功能集,比如对同一性状有贡献的多个 QTLs,可以在没有偏差风险的情况下检验多基因选择。作用在 QTLs 网络中的选择可以根据其方向性的显著性偏倚进行推断。虽然在中性条件下,正效应或负效应 QTL 的分布可能是随机的,但在一个谱系内某一种或另一种类型位点的 over-representation 可能暗示着选择。
3)Alternative Targets of Selection。迄今为止的大部分自然选择研究都是聚焦于单核苷酸水平的遗传变化,主要是因为从技术的角度来看,随着蛋白质分析和 SNP 基因分型研究的进展,这些结果是最容易获得的。鉴于其突变机制,通常会产生独特起源的简单双等位基因的变化,它们也更容易被纳入选择的统计检验中。此外,SNPs 在这类检验中很有用,因为其可以作为标记物:通过 SNP 作为 proxy,检测出具有 SNP 的 LD 邻近的变异。一些其它影响生物表型的遗传改变可能受到选择的影响,包括 CNVs、微卫星、染色体重排、多基因网络、和表观遗传注释等。一些检验可以适用于 SV,尽管 SV 这一统称下的变种的广泛多样性以及它们对基因组的巨大影响使得系统地检测受选择的变异具有挑战性。最近还发现一些表观遗传排列在一些代之间是可遗传的,这也增加了选择在表观基因组上选择的可能性。虽然尚不清楚这种选择模式在多大程度上是普遍的,但这是一个令人感兴趣的领域。
3. 未来的挑战
虽然每种方法都有其独特的长处和局限,但这些检验都面临着一些共同的挑战,尤其是在解释其意义方面。中性检验可以拒绝零假设,但除了对观察的基因组结果进行选择之外,还有许多其它的解释。比如,一些群体动态(迁移、扩张和瓶颈等)可以造成类似于选择的信号。从历史上来看,大多数研究都是通过比较位点特异性数据和全基因组数据来排除这种可能性的,因为群体动态被理解为是全基因组发生的事件,而选择以一种更有针对性的方式发挥作用。
然而,有人开始质疑这种 outlier 方法,主张如果选择是普遍的,那么搭便车事件会被误认为反映群体动态。更普遍地说,认识到选择的影响和群体动态的影响可能相互关联,一些人会采用其它的方法,比如通过各种计算框架估计群体动态参数,并将这些纳入后续分析。另一个相关问题是,当检验应用在和 causal allele 具有较强 LD 的中性基因时,可能产生假阳性。
即使这些混淆效应可以被排除,对选择的解释可能也没有那么简单。比如,基于速率的检验表明,在进化变化加速的区域,可能是由于新变异受到了选择,但一个受到选择性约束区域的放松可能产生同样的效果。区分这些可能性需要逐个案例进行分析。候选区域的功能分析也可以帮助在这两种可能性之间做出判断,如果派生的变体没有潜在的适应性强度变化,那相对于祖先,选择性约束的放松可能是更好的解释。
另一个挑战是如何衡量基因组数据中的系统偏差。迄今,大多数选择研究是利用 SNP 数据集,这些数据是通过设计检测已知多态性的基因分型阵列得到的。SNP discovery protocols 的局限意味着低频位点是无法被发现的,这种情况下,他们会被排除在这些阵列之外。因此,这些阵列产生的数据可能无法代表全部的遗传多样性,这种现象被称为确定偏差。这种数据取样会人为地扭曲等位基因频率测量以及包含 LD 的衍生统计值。当 SNP discovery protocols 是已知的,可以采取统计措施来抵消确定偏差的影响。此外,采用 VINO 探针的基因分型阵列分析也可以减少由于确定性偏差而忽略的多态性数量。
在研究自然选择的另一个突出问题是,尤其是在人类的研究中,存在对结果及其社会意义的错误解释,通过注意语言的细微之处和传播时谨慎使用,可以帮助防止不道德地利用进化研究。
4. 从基因组扫描到进化假说
基因组水平受到选择的最终验证时假定的变异对生物适应性有重要的表型变异。对候选区域的功能理解始于对该区域的精细定位,从而对选择信号进行定位。定位选择信号是一个主要的挑战,但新的复合方法和全基因组数据提供了更强的分辨率,可以让研究人员更容易地鉴定到真的候选基因。一旦个体等位基因被鉴定出来进行实验,研究人员就可以衡量这些等位基因的效果,并将其与野生型类似基因进行比较。基因组注释可以为实验设计提供信息,它可以提示变体可能影响的最可能的性状类型,或提示变异最常表达的细胞类型。
表型筛选可以通过对生物体中各种性状的关联研究来进行,但背景的变异会引入噪音到数据。为了纠正这一点,研究人员可能会将衍生型和祖先变异引入体外细胞系或在体内相同的遗传背景进行比较。尽管在这种情况下,一种变体具有多效性影响的可能性使得功能性随访研究能否正确识别该变体的选择意义变得困难。虽然详尽的表型筛选是不可能的,研究人员可以尽可能地全面列表来加强它们的证据力度。
创造一个选择的案例需要结合基因组和功能证据。随着大量群体遗传学数据集的可用,解释这些数据的统计方法,以及越来越复杂的转基因技术和其它功能方法,研究人员在进入一个自然选择研究的新时代,即人类和其它生物的基因组变异的原因和影响都可以建模和理解。