狗的遗传多样性

题图2
        宠物狗的形态为何如此多变?本文试从狗的遗传多样性上简要分析这一现象。

在讨论品种差异之前,我们需要明确一些生物学上的概念:狗并不是一个物种,它是犬科犬属灰狼(Canis lupus)的一个亚种,学名“家犬”(Canis lupus familiaris),我们通常说的“品种”是更加细小的分类单位,指的是在一个物种内部通过人工选育,获得了某种稳定表型的特定群体。

家犬品种数量巨大,世界犬业联盟(Federation Cynologique Internationale,FCI)公认了337个品种,而各国地域原有的品种可能多达700个以上;不同品种之间更表现出了惊人的表型多样性,从体型巨大的圣伯纳到身材娇小的西施犬,从夯实浑圆的松狮到纤细苗条的灵提,从短嘴塌鼻的巴哥犬到小眼长脸的牛头梗,狗的每个器官都能找出许多鲜明的对比来。

1

图 1 各种各样的家犬品种

而在家犬丰富的表型多样性之下,是这个亚种独特的遗传学特点:单基因性状多、重复序列多、逆转录转座子活跃。

显著的单基因性状

所谓单基因性状,即被一个基因决定的性状,比如高中生物作为范例的豌豆圆粒和皱粒、果蝇的眼和白眼。但在哺乳动物身上更多见的是多基因性状,尤其是某些连续变化的数量性状,比如人类的身高受到约200个基因的共同影响,却没有一个基因具有足够的上位性(epistatic,指非若干个等位基因之间,有一个基因能决定其它基因是否表现,比如人的秃头基因对于头发颜色的基因就具有上位性)以主导这一性状,所以我们无法找到一个判然的标准划分高个子与矮个子。

由于多基因性状普遍存在,哺乳动物的丰富的表型多样性通常意味着高度的基因多样性,但家犬却是一个例外,它们的表型多样性并没有对等的基因多样性:

在一项名为“犬类图谱”(CanMap)的项目中,美国康奈尔大学、加州大学洛杉矶分校和国立卫生研究院(National Institutes of Health)的研究者们从代表80个品种的900多只狗,以及灰狼、郊狼等野生犬科动物体内收集了DNA。分析发现,狗的身材、毛长、毛型、毛色、耳位等等品种鉴定特征只需大约50个基因就能控制。耳朵的软垂或翘立是由犬类10号染色体上一个单独基因区决定的,名为CFA10。中国沙皮狗的皮肤褶皱指向另一个基因区HAS2。罗德西亚猎犬身上那一溜逆生的短毛是CFA18调节的结果——只要扳下几个基因开关,你的腊肠狗就能变成一只高大的杜宾犬,至少外观上如此。

——译自《国家地理》文章《How to build a dog

这些单基因性状很容易通过回交的方式获得纯合子,从而得到非常稳定的特征,这给狗育种带来了很大的方便,比如同样在这次“犬类图谱”项目中,研究者们特别关注了葡萄牙水犬(Portuguese water dogs),这是一个体型变化较大的犬种。当比对不同体型者的基因组时,他们在体型较小的葡萄牙水犬15号染色体上发现了一个碱基的突变(单核苷酸多态性,single-nucleotide polymorphisms,SNPs),这个小小的差异影响了编码胰岛素样生长因子1(insulin-like growth factor 1,IGF1)的功能,而这种生长因子在哺乳动物的合成代谢中起着重要作用,它的突变可以导致幼年发育停滞。进一步的比对发现,大多数的小体型犬种都具有这个突变,大体型犬种就没有这个突变,而且是两类犬种之间唯一具有显著差异的基因。

Portuguese Water Dog Breed : There are many people who love cute dogs and the Portuguese Water Dog may just be lovable enough. For one, they are medium-sized dogs, which are perfect for owners who want a dog that is not too big and not too small.

图 2 不同毛色的葡萄牙水犬,这是一种捕获水鸟的猎犬

也就是说,在人身上受200个基因协同作用的数量性状,在狗身上却可以被一个上位性的基因强烈决定,考虑到小型犬品种分化相当久远,研究者认为这一突变在狗驯化的早期就被无意识地筛选出来了,以致比熊犬(Bichon Frisé)的体重只有相貌类似的爱尔兰猎狼犬(Irish wolfhounds)的体重的2%,这样巨大的种内差异在全体哺乳动物中都绝无仅有。

3

图 3 并肩奔跑的的爱尔兰猎狼犬和比熊犬。爱尔兰猎狼犬肩高0.8米以上,站立高度超过成年男子,是最高的猎犬品种,有效保证了它们在追猎时的移动速度;相比之下,比熊犬的肩高只有20厘米左右。 ​

 多见的重复序列

除了体型和毛发,狗鼻子的形状也是品种鉴定的重要特征,比如牛头㹴(Bull Terrier)就长着独树一帜的下弯长脸,而法国斗牛犬(French bulldog)却因为凹陷的鼻梁受人喜爱——这都是上颌骨生长速度不同带来的多样性。

4

图 4 牛头㹴和法国斗牛犬

​这一多样性的根源是DNA分子中的重复序列,这种机制也解答了公众在理解进化论时普遍产生的一个困惑:如果进化源自DNA序列中的随机突变,那么单个碱基的变化怎么才能累积出哺乳动物几十亿个碱基的宏大基因组?

这是因为“随机突变”四个字囊括了多种多样的变化机制,远不止单个碱基突变这一种笨拙的方式。DNA序列会因为各种原因发生重复,从而产生整段的新序列,而新序列一旦产生就与旧序列完全独立,各行其是,这就给进化提供了无限的可能,真核生物的大多数基因都是这样出现的。

5

5 在基因层面上产生重复序列的两种方式:左侧是以DNA为基础的基因重复,往往发生于减数分裂同源染色体联会的时候,形成的重复序列串联在一起,称为串联重复(tandem repeats);右侧是以RNA为基础的基因重复,DNA上的信息转录到信使RNA上,又被逆转录到DNA的其它位置上,这个过程随时都可能发生,形成的重复序列分散在整个基因组中,称为散在重复(Interspersed repeat)。

DNA序列的重复可以发生任何一种尺度上,大到整个基因组,比如小麦有90%的基因都是重复序列;小到几个碱基的序列,比如关系到狗鼻子的串联重复序列。

串联重复序列(tandem repeats)本身非常简单,就是DNA分子中几个核苷酸首尾相继的重复序列,比如在人类Y染色体上多见的“GATAGATAGATA”,就是3个“GATA”串联起来。然而这些重复的序列常常令DNA聚合酶“看花眼”,在复制时多复制一段或少复制一段,所以串联重复序列具有极高的变异率,可以达到单个核苷酸变异(点突变,point mutation)概率的10万倍——这样的序列如果出现在某个基因内部,频繁的突变就会直接产生大量的等位基因(复等位基因,multiple alleles)。

 6

图 6 串联重复序列在复制时可能遇到的结果:从上至下第一种是正常的复制;第二种是在子链上打滑,导致多复制一个重复单元;第三种是在模板链上打滑,导致少复制一个重复单元

回到狗鼻子上,2004年,德克萨斯大学西南医学中心(University of Texas Southwestern Medical Center)的Harold Garner和John Fondon以家犬为对象,研究了DNA串联重复序列与脊椎动物形态变异的关系,他们很快定位到了家犬编码“成骨特异性转录因子2”(runt-related transcription factor 2,Runx-2)的基因上。这个转录因子负责调控脊椎动物成骨细胞中的基因,影响骨骼的形态,家犬的对应基因中包含两个重复序列,一个编码18到20个谷氨酸,一个编码12到17个丙氨酸。经过统计,这两个重复序列的长度与家犬上颌骨的长度有着强烈的相关性,这很可能是因为前一种序列能加强被调控基因的表达,后一种序列能减弱被调控基因的表达,不同长度的重复序列也就在拮抗中形成了各异的调控效果。

而由于串联重复序列的高突变率,人们可以在选育中快速获得极端的性状,最典型的就是牛头㹴:这个品种出现于19世纪中叶,最初的脸型并不特别,但是比较它们一个世纪以来基因的变化,我们发现现代样本的Runx-2基因比70年前少了一个重复单元,正是这个突变让育种师收获了蛋形脸的牛头㹴。

7

图 7 20世纪初的牛头㹴和21世纪初的牛头梗

8

图 8 三个牛头㹴的头骨,分别取自1931年、1950年和1976年

活跃的转座子

而在这所有遗传机制中,还有家犬基因组中数量庞大的转座子在背后推波助澜。

与多数人的固有观念不同,DNA序列并不总是焊死在一个固定的位置上,它们有的可以连根拔起跳跃到其它地方,有的可以复制出许多个副本在整个基因组中随处插入——这样的DNA序列就被称为“转座子”(Transposon)。其中的后一种被称为“逆转录转座子”(retrotransposon),正是图 5中的散在重复序列,它们在真核生物的细胞里极其多见,在植物的基因组中占到50-75%,在哺乳动物的基因组中占25-40%,在人的基因组中占42%。

逆转录转座子与逆转录病毒在起源上有着密切的关系,它们都涉及到用DNA转录成RNA,再逆转录成DNA,并插回到DNA中,只是逆转录转座子不像逆转录病毒那样编码了蛋白质外壳序列(env基因),所以不能离开细胞在外环境中传播,但终究是一类很能“捣乱”基因。

与家犬基因多样性密切相关的是一种被称为“短散在核重复序列”(Short interspersed nuclear elements,SINE)的逆转录转座子,它们的长度在500个碱基以下,不能编码自己的逆转录酶,往往利用DNA分子内的随机断裂(random DNA breaks)实现转座,这就让它们格外倾向于插入基因组的活跃位置上,结果与既有的基因组合在一起,改变了基因的表达,产生大量的新等位基因。

比如在2005年,美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)比对了贵宾犬(poodle)和拳师犬(boxer)的基因组,发现了一个非常活跃的SINE序列,称为SINEC_Cf,长度只有189个碱基对,却出现了1万多次,覆盖了家犬50%的已知基因,极大的提高了家犬的基因多样性——更关键的是,SINEC_Cf序列的大量复制就发生在历史近期,也就是家犬接受人类驯化的那段时期。相比之下,人类也有一个极著名的SINE序列,称为ALu元件(Alu Elements),长约300个碱基对,出现了100万次有余,占据整个人类基因组的10.7%,但是绝大多数都活跃于人猿分野的远古时期,如今已经被固化在基因组中,失去了转座的能力。

这些逆转录转座子带来的效应也是显而易见的,很多家犬品种都将短腿当作重要的鉴定依据,著名的有威尔士柯基犬(welsh corgi)、巴吉度猎犬(basset hound)、腊肠犬(dachshund),它们的短腿性状实际上是软骨发育异常(Chondrodysplasia)。而这个异常被18号染色体上的一个额外基因所决定,它编码了成纤维母细胞生长因子4(fibroblast growth factor 4,FGF-4),却丢失了所有的内含子,正是逆转录转座子活动的典型结果。

9

图 9 威尔士柯基犬、巴吉度猎犬和腊肠犬

总而言之,家犬能成为地球上多样性最高的生物类群,离不开它们在遗传层面上的高度可塑性,是最好的育种材料,而人类能得天下英才而选育之,自然也乐在其中——这就是家犬品种丰富的另一半原因了。

(文/刘大可先生)