菜豆属(Phaseolus L.)为同源二倍体作物,包含有80 多个物种,多数为野生种,仅有5 个栽培种,分别为普通菜豆(P.
vulgaris L.)、多花菜豆(P. cocineus L.)、利马豆(P.
lunatus L.)、丛林菜豆(P. dumosus L.)和宽叶菜豆(P. acutifolius L.),其中普通菜豆在世界范围内种植范围最广、栽培面积最大、食用人群最多。普通菜豆籽粒富含蛋白质和多种微量元素,且脂肪含量非常低,是人类极佳的植物蛋白来源。

普通菜豆有两个独立的起源中心,中美基因库和安第斯基因库。因此,美国和西班牙科学家先后发起了对中美基因库(G19833)和安第斯基因库(BAT 93)代表性材料的全基因组测序计划。

两个研究团队都发现了普通菜豆的两个基因库在豆科基因组发生复制之后再次发生了基因的复制现象。

研究一:G19833组装,2014NG

A reference genome for common bean and genome-wide analysis of dual domestications.
Nat Genet. 2014 Jul;46(7):707-13. doi: 10.1038/ng.3008. Epub 2014 Jun 8.

通过454 测序平台获得 24.1 Gb 的数据量,同时利用 Sanger 测序法完成了 3 个 fosmid 文库和两个 BAC 文库的末端测序,并结合包含 7 015个 SNP 标记的基于 F2 群体和 261 个 SSR 标记的基于 RIL 群体的遗传图谱进行序列组装。最终,组装scaffold 序列总长度为 521 Mb,而 contig 序列总长度为 472.5 Mb,占预估基因组大小 587 Mb 的 80%。G19833 基因组的重复序列约占 45.4%,其中 LTR反转录转座子是最多的一类,占基因组的 36.7%。同时,研究团队完成了根、茎和叶等 11 个组织的转录组测序用于基因的预测和分析,共鉴定出 27 191 个基因。

菜豆与大豆比较Circos图。
(a)灰色线连接重复的基因。
(b)染色体结构,着丝粒和着丝粒周围区域分别为黑色和灰色(比例以 Mb 为单位)。
(c)以 200 kb 为间隔的 1 Mb 滑动窗口中的基因密度。
( d ) 在 1 Mb 的滑动窗口中以 200-kb 的间隔重复密度。
(e)基于 6,945 个 SNP 和 SSR 的遗传和物理作图的重组率。
( f , g ) 第一个共线区 ( f ) 和第二个与大豆共线区 ( g ) 由于谱系特异性复制导致菜豆中的每个片段都有两条染色体片段。

对来自中美洲和安第斯野生种群的 30 个个体进行了合并重测序,形成测序池pool

菜豆的驯化
(a)野生中美洲和安第斯普通豆池的分化。大约165,000 年前,野生安第斯基因库与野生中美洲基因库分道扬镳,群体少,瓶颈持续了大约76,000 年。瓶颈之后是指数增长阶段,一直延续到今天。两个库之间的不对称基因流在维持遗传多样性方面起着关键作用,尤其是在安第斯种群中,平均迁移率M 21 = 0.135(野生中美洲到野生安第斯)和M 12= 0.087(野生安第斯山脉到野生中美洲)。这种情况符合普通豆的中美洲起源模型,具有早于驯化的安第斯瓶颈。( n anc , 祖先种群的大小; t div , 瓶颈的开始; n b , 瓶颈种群的大小; t b , 瓶颈的长度)
( b ) 基于来自普通豆 DNA 库重测序的 SNP 数据的种群基因组分析。每个池的圆圈大小与池的π值成正比。野生中美洲 (MA) 池的π = 0.0061作为参考。Fst代表任何两个池的差异,记录在连接池的线上。Land,地方品种;N,北;S,南;C、中。
(c)普通豆种子大小的变化。野生中美洲和安第斯豆类(各两个)的种子小于对应于参考基因型 (G19833) 和美国种植的多种市场常见豆类的种子。

菜豆演化过程中多样性的下降和分化
( a , b ) 10-kb/2-kb 滑动窗口中的全基因组范围的分化指数Fst和驯化相关的多样性π ratio统计,( a ) 中美洲 和 ( b )安第斯。Log 10 π小于零的未显示。线条代表每个统计量的经验分布的 90%、95% 和 99%

种子重量的GWAS分析
( a ) 在美国的 4 个地点种植了一个由 280 个个体组成的中美洲栽培品种。表型数据与 34,799 个 SNP 标记相结合,并使用控制群体结构和基因型相关性的混合模型进行分析。
(b)在 Pv07 上种子重量GWAS 结果与 1.23 Mb 左右大小的连锁不平衡(r2)扫描窗口。用于驯化的候选基因的位置由 GWAS 显示上方的星号表示。候选范围从Phvul.007G094299到Phvul.007G.99700。

研究二:BAT 93组装,2016 genome biology

Genome and transcriptome analysis of the Mesoamerican common bean and the role of gene duplications in establishing tissue and temporal specialization of genes.
Genome Biol. 2016 Feb 25;17:32. doi: 10.1186/s13059-016-0883-6.

2016 年西班牙科学家领导的研究团队完成了 BAT 93 的全基因组测序,同美国科学家的测序策略基本一致,采用多种方法相结合进行基因组的测序组装,最终,获得 549.6 Mb 的序列,与预期的基因组大小基本一致,重复序列占基因组的35%,LTR 反转录转座子仍是重复序列的主要类型。通过对 34 个不同的组织或是时期的 RNA 文库的测序,鉴定出 30 491 个编码基因。

BAT93 组装概述。
a scaffold00017 的GBS示例。定义的错误装配点位于中心。颜色表示 GBS 样本和参考基因组之间的不同变异:蓝色,纯合变异;浅蓝色,杂合变异;灰色,没有任何变体。颜色对应于连锁群。
b BAT93(绿色)和G19833(棕色)连锁群之间一对一同源基因的类同线性比较。颜色对应于连锁群。
c Circos 图表示菜豆连锁群的基因含量和转录组图谱。外环代表跨bean连锁群的基因定位。灰色区域意味着包含基因,而白色区域则是注释基因中缺失。红线显示的是连锁群的重复覆盖。不同颜色的方块代表不同类型的基因:红色,smallRNAs;蓝色,lncRNA;黄色,豆类特有的;黑色, 抗性。划定连锁组的水平条下方的内环代表不同器官的 RNA-Seq 覆盖率:轴向分生组织、花、豆荚、种子、叶、根和茎

lncRNAs 在菜豆中的保守性和表达模式。
12 种植物中 lncRNA 转录本的系统基因组学分析。显示了在至少一种其他植物中保守的 762 个豆类转录本(属于 507 个基因)。与豆类序列相似性百分比绘制热图,其中绿色表示高度相似,灰色表示缺失的转录本。最左边的一列表示豆类的平均表达水平,最右边的一列标记了从拟南芥同源物推断的 56 个转录本。

系统基因组学分析。
基于对 172 个广泛存在的单拷贝直系同源基因,采用最大似然分析物种系统发育。两个不同的菜豆种质具有不同的颜色。条形代表每个物种的基因总数(顶部的刻度)并被划分以指示不同类型的系统发育谱:绿色,广泛存在的蛋白质,在 14 个物种中的至少 12 个中发现;在六种豆科植物中的至少四种中发现的灰色,广泛存在但豆科植物特有的蛋白质;浅橙色,基因没有明确的系统发育谱;棕色的,在其他物种中没有(可检测到的)同源物的物种特异性基因。每个条形下方的细蓝线代表在给定物种中具有同源性的菜豆G19833 基因的百分比。相反,橙色细线代表在给定物种中具有同源性的菜豆 BAT93 基因的百分比。

转录组动态学。
a 菜豆的发展阶段。
b 基于蛋白质编码基因 ( PCG )表达水平的豆类样品分层聚类。
c PCG 和 lncRNA 基因的组织特异性。条形图代表基因在给定数量的器官中表达的比例。
d 饼图代表器官特异性 PCG 和 lncRNA 跨器官的分布。
e 发育过程中的差异 PCG 和 lncRNA 表达。每个条形对应于在给定发育阶段与前一个阶段相比差异表达的基因数量。高于和低于零的值分别表示上调和下调基因的比例;受调控基因的数量显示在相应条形的顶端。

共表达网络。
a 共表达网络排布:11 个最大的模块用不同的颜色着色,并标有它们假定的功能。
b 共表达网络中最大模块的组成(PCG 和 lncRNA 的数量,以及器官特异性基因的数量)。颜色对应于(a)中网络中的颜色。
c 基因连通性作为进化年龄的函数。
d 基因连接作为旁系同源物存在/不存在的函数。

基因复制与表达模式。
a 分配给不同相对进化时期的物种列表。红色方块代表重复事件。
b为分配给特定时期的蛋白质计算的平均 Pearson 相关系数 (PCC) 和组织表达互补性 (TEC) 分数。在特定年龄复制的基因数量在 x 轴括号中表示。
c基因表达变异与基因重复之间的关系。

文章重点研究了器官发育和形成背后的基因表达模式,以及这与潜在基因进化的关系。总体而言,与之前对常见豆类转录组的分析一致,发现大约 70% 的基因在发育过程中或跨器官表现出调节表达;一些基因在特定阶段高度表达,如核酮糖-二磷酸羧化酶和来自叶和种子样品中菜豆蛋白家族的贮藏蛋白。

  • 提供了中美洲普通菜豆品种的基因组、转录组和系统基因组数据。
  • 比较两个独立驯化的谱系,表明大多数豆类特异性基因家族的扩展,包括那些涉及抗性基因的扩展,早于中美洲和安第斯基因库的分裂,因此早于驯化。这表明关键的预先存在的适应性可能促进了某些物种的驯化。
  • 转录组图谱显示 lncRNA 在相关组织(豆荚和种子)中特别丰富,这表明它可能在果实发育中发挥作用。
  • 指出基因复制在植物中形成差异组织和发育表达方面的重要作用。随着基因家族通过连续的复制次数变得更大,它们的表达模式变得更窄,彼此不同。
  • reference
    2021普通菜豆基因组研究进展