摘要
自人类全基因组测序完成后,发现人类基因组中即使是单个染色体序列上的碱基总数也有许多,超过1亿对,面对如此巨大的数据量,以往的研究只是做一些粗略的微卫星总数统计,或者仅仅专注于一些局部基因组区域的微卫星研究,缺乏系统分析。Y染色体是较短的一条,本研究以测序区域最全的Y染色体参考序列NC_000024.10进行系统分析。 本研究以已测序区为基础,总共提取出19万个微卫星序列,研究发现它们在不同区域分布很不均匀,其中有许多相同或者相似的微卫星(或称简单序列重复)会特异性的聚集在一起,有的是几百个相似的聚集在一起,有的是几十个相似的聚集在一起,有的仅是几个相似的聚集在一起,根据这种现象分为微卫星cluster、minicluster、microcluster三类。cluster为连续25个以上相似或者相同的微卫星聚集在一起,minicluster为连续9-25个相似或者相同的微卫星聚集在一起,microcluster为连续3-8个相似或者相同的微卫星聚集在一起。通过统计还发现了这些微卫星序列特异性聚类的总数达到了8110个,微卫星序列特异性聚类中的微卫星个数占到了已测序区19万个微卫星总数的30%左右,其中cluster的数量为204,minicluster为354,microcluster的数量为7552。由于cluster比重最大,实验室接下来的研究也在cluster上,因此分析了cluster在不同区域中的分布,为以后的研究提供数据基础。 在本论文研究中我们首先分析了三类微卫星序列特异性聚类在基因组上的分布情况;其次对不同重复类型、不同重复模体和不同片段中的微卫星序列特异性聚类进行数量统计并比较分析;最后对所有微卫星序列特异性聚类的特征值进行统计,这些特征值能明显的反映微卫星特异性聚类的内部情况。以上统计表明特异性聚类可能具有重要的生物学意义,为了解Y染色体的结构打下更深厚的基础,并对微卫星的进化规律提供帮助。