Follow us:

资源

  • 生物大数据 科研案例 技术支持 服务流程
  • 基因组从头测序(De novo sequencing)


    基因组从头测序(De novo sequencing)
    基因组从头测序,是指在不依赖参考基因组的情况下对某物种进行基因组测序,然后应用生物信息学手段对测序序列进行拼接和组装,从而绘制该物种的全基因组序列图谱。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端!这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为后续从基因组学水平研究物种的生长、发育、进化、起源及特定环境适应性奠定基础,同时也为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息,从而对基础生物学、分子育种、遗传基因改良等方面的研究起到巨大的推动作用。
    采用传统的Sanger法测定高等动植物的全基因组需要花费大量的人力和物力资源,这极大限制了全基因组测序的发展。2007年6月,DNA 双螺旋结构的发现者James Watson的基因组序列登录到了GenBank数据库当中,这是第一次使用非Sanger测序的高通量测序方法获得了人类个体基因组序列,并且第一次将个人基因组序列公之于众。整个测序过程在两个月之内就完成了,花费不到100万美元,这只占耗时10年之久的人类基因组计划使用经费的千分之一,或是相当于Venter基因组计划费用的百分之一。此后,第二代高通量测序技术的成熟和广泛应用,大大降低了基因组测序的成本,缩短了测序时间,让更多实验室可以独立开展动植物基因组测序项目。
                         
    技术路线
    根据物种基因组的复杂度,特别是重复区域的大小和数量等信息,科学的制备各种长度插入片段的测序文库,合理的使用不同的高通量测序技术,能够高效经济的完成高等动植物的基因组图谱绘制。De novo测序的主要策略:一是对短片段Shotgun文库(300-1000 bp)进行深度测序,确保序列覆盖度和测序准确性,获得基因组基本序列信息;二是构建较长插入片段度的mate pair文库(3kb、8 kb、10 kb、20 kb等等)并测序,确定短片段序列间的相对位置,通过拼接组装获得基因组序列框架;三是通过PCR扩增技术获得序列间断开部分(gap)DNA片段并进行一代测序,从而获得完整基因组序列。

    生物信息分析
    1.  基因组拼装统计
    提供基因组拼装的基本信息,包括原始数据统计、测序覆盖率统计、Contig N50大小、Scaffold N50大小、基因组GC含量等信息。
    2.  基因组注释
    包括基因预测、基因功能注释(同NR、Swiss-Prot、Interpro等数据库进行同源比对)、重复序列分析及Non-coding RNA注释等。
    3.  基因功能分类
    GO分类、KEGG通路分析等。
    4.  比较基因组学及进化分析
    通过比较相近物种的基因组数据,从基因功能、基因组骨架结构、分子进化等方面对目标基因组进行分析。
    5.  建立数据库
    建立符合国际标准且具有良好兼容性的基因组数据库,实现基因组数据的查询与共享。
     
    数据挖掘
    1、动植物进化分析
    基因家族鉴定(动物TreeFam、植物OrthoMCL);
    物种系统发育树构建;
    物种分歧时间估算(需要标定时间信息);
    基因组共线性分析;
    全基因组复制分析(动物WGAC、植物WGD)。
    2、微生物高级分析
    基因组圈图;
    共线性分析;
    基因家族分析;
    CRISPR预测;
    基因岛预测;
    前噬菌体预测;
    分泌蛋白预测。
     
    技术指标
    1. 动植物基因组指标
    基因组大小(Genome Size, GS) 组装指标
    GS ≤ 300 Mb Contig N50 > 20 kb, Scaffold N50 > 300 kb
    Contig N50 > 10 kb, Scaffold N50 > 150 kb
    300 Mb < GS ≤ 1500 Mb(鸟类除外) Contig N50 > 20 kb, Scaffold N50 > 300 kb
    Contig N50 > 10 kb, Scaffold N50 > 150 kb
    1500 Mb < GS ≤ 3000 Mb
    (哺乳动物除外)
    Contig N50 > 10 kb, Scaffold N50 > 150 kb
    Contig N50 > 5 kb, Scaffold N50 > 20 kb
    GS < 1600 Mb(鸟类 ) Contig N50 > 20 kb, Scaffold N50 > 300 kb
    GS < 3200 Mb
    (哺乳类,除翼手目除外)
    Contig N50 > 20 kb, Scaffold N50 > 300 kb
    复杂基因组 Contig N50 > 20 kb, Scaffold N50 > 300 kb
     
    2. 微生物基因组指标
    真菌 Survey 整体测序覆盖深度不低于30倍覆盖度。
    框架图 交付数据不低于50× clean data。
    精细图 基因组常染色质区覆盖度达到95%以上,基因区覆盖度达到98%以上(需要提供高度同源序列),拼接片段Scaffold N50长度达到300 Kb;整体测序覆盖深度不低于50倍覆盖度。
    细菌 Survey 整体测序覆盖深度不低于100倍覆盖度。
    精细图 基因组常染色质区覆盖度达到95%以上,基因区覆盖度达到98%以上(需要提供高度同源序列);整体测序覆盖深度不低于100倍覆盖度;
    完成图 经过基因组检测、1个scaffold、1个contig这三个阶段,后期经过2轮PCR对完成图组装结果进行局部验证。
     
     
    样本准备
    1.  DNA样品:浓度≥200ng/μl,总量≥500μg,OD值应在1.8~2.0之间,样品浓度越高越好。
    2.  植物样品:需为黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。
    3.  动物样品:应挑选肌肉、血等脂肪含量较少的组织进行取样。为了减少个体差异对后续拼接产生的影响,应尽量从同一个体中取样,若物种体积较小,从一个个体提取的DNA量不够进行一次测序反应,在保证量的情况下,应尽量减少个体的个数。测序样品最好为纯合体。
     
     
     




    更多了解产品和解决方案>>
    美好杏园你我共创