自20年前人类基因组测序宣布以来,由于着丝粒内聚集了大量高度相同的重复区域、片段重复区域和染色体的近端短臂,人类染色体的研究一直没有完成。大量(超过100kb)高度相同的重复序列是拷贝数多态性的,这意味着这些区域一直作为缺口存在,这限制了我们对人类遗传变异和进化的理解。
每个人类染色体的完整组装对于理解人类生物学和进化是必不可少的。美国华盛顿大学Evan E. Eichler团队近期在Nature上发表了题为"The structure, function and evolution of a complete human chromosome 8"的论文。
研究人员使用互补的长阅读测序技术来完成人类8号染色体的线性组装。研究人员的组装解析了5个以前长期存在的缺口序列,包括2.08-Mb着丝粒α卫星阵列、对疾病风险很重要的β-防御素基因簇中644kb拷贝数多态性和染色体8q21.2上863kb可变数目串联重复序列,可以作为新着丝粒发挥作用。
研究发现着丝粒α-卫星阵列通常是甲基化,除了富含CENP-a核小体的不同高阶α-卫星的73kb低甲基化区域,与动粒的位置一致。此外,研究还证实了二倍体人类基因组中着丝粒的整体结构和甲基化模式。利用双长读测序方法,研究完成了黑猩猩、猩猩和猕猴8号染色体同源着丝粒的高质量草图组装,以重建其进化史。比较和系统发育分析表明,类人猿祖先的高阶α-卫星结构具有层状对称性,其中更古老的高阶重复序列位于单体α-卫星的外围。研究人员估计着丝粒卫星DNA的突变率比基因组的独特部分加快了2.2倍以上,并且这种加速延伸到侧翼序列。