人类基因组计划(HGP)简介
人类基因组计划(英语:Human Genome Project, HGP)是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。截止到2005年,人类基因组计划的测序工作已经基本完成(92%)。其中,2001年人类基因组工作草图的发表(由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司各自独立完成,并分别公开发表)被认为是人类基因组计划成功的里程碑。
国际人类基因组计划
国际人类基因组计划的启动的重要原因是美国能源部的推动。1984年,在美国犹他州的Alta,由美国能源部资助的一个旨在讨论日益发展的DNA重组技术的会议上,科学家们第一次讨论了人类基因组测序的价值。而首次对于人类基因组测序的可行性进行认真的探讨是在1986年由罗伯特·辛西默(Robert Sinsheimer)主持的一个会议上。与会者的发言非常地大胆:“这一启动计划(人类基因组启动计划)的最终目标是了解人类基因组”,“就像了解人类身体构造对于目前医学发展的贡献,对人类基因组的了解将对医学和其他健康科学研究提供必不可少的支持”。随后,美国能源部健康与环境研究项目主任查尔斯·德利西决定对人类基因组启动计划进行资助,资助金额为五百三十万美元,用于发展关键性技术与资源。
1988年,人类基因组计划再次得到显著的推动,DNA双螺旋结构的发现者和诺贝尔生理学或医学奖的获得者詹姆斯·沃森领导着美国国家卫生研究院中新成立的一个基因组研究中心,加入了这个计划。对于人类基因组计划,沃森的评价是:“不尽快将它(人类基因组计划)完成将是非常不道德的”,“我有幸有机会让我的科学生涯从双螺旋跨越到三十亿步(指的是组成人类染色体的单倍体中的核苷酸序列由30亿个碱基对组成的)的人类基因组”。但沃森于1992年离开该计划,其位置由弗朗西斯·柯林斯取代。
1990年,投资三十亿美元的人类基因组计划由美国能源部和国家卫生研究院正式启动,预期在15年内完成。随后,该计划扩展为国际合作的人类基因组计划,英国、日本、法国、德国、中国和印度先后加入,形成了国际基因组测序联盟。为了协调各国人类基因组研究,1988年在维克多·马克库斯克等科学家的倡导下,国际人类基因组组织(HUGO)宣告成立。
中国参加国际人类基因组计划
中国的人类基因组计划在中国国家自然科学基金委员会的支持下,于1994年启动,并得到国家高技术发展计划和国家自然科学基金的资助。1998年,中国南方基因组中心成立,中国科学院遗传研究所人类基因组中心成立;1999年北京华大基因研究中心(华大基因)成立,北方基因组中心成立。在此之前,国际人类基因组计划早已在各个合作单位,规划和分配了各自应负责的染色体和其片段的测序工作。1998年3月,中美港科学家合作,成功地将与华人和鼻咽癌有关的肿瘤抑制基因定位于人类第3号染色体的短臂3p21.3位点,这为中国最终参加国际合作的DNA测序工作提供了迫切和合理的理由。1999年6月26日,中国科学院遗传研究所人类基因组中心向美国国立卫生研究院(NIH)的国际人类基因组计划(HGP)递交加入申请。HGP在网上公布中国注册加入国际测序组织,中国成为继美、英、日、德、法后第六个加入该组织的国家。1999年11月10日,1%计划被列入中国国家项目,并确定由北京华大基因研究中心(华大基因)牵头,国家基因组南方中心、北方中心共同参与,承担全部工程1%的测序工作。2000年4月,中国完成了人第3号染色体上3000万个碱基对的工作草图。中国加入人类基因组计划的意义重大。除了使该计划具有更广泛的代表性外,此举也成为生命科学领域里国际间大规模研究合作的起始点,标志着中国的生物科学研究开始跻身国际前沿行列。
塞雷拉人类基因组计划
在国际人类基因组计划(以下简称“国际计划”)启动八年后的1998年,美国科学家克莱格·凡特创办了一家名为塞雷拉基因组(Celera Genomics)的私立公司,邀聘具基因定序之父的陈奕雄博士担任首席科学家,开展独立的人类基因组计划。与国际人类基因组计划相比,该公司希望能以更快的速度和更少的投资(3亿美元,仅为国际计划的十分之一)来完成此项工程。塞雷拉基因组的另起计划被认为对人类基因组计划是一件好事,因为塞雷拉基因组的竞争促使国际人类基因组计划不得不改进其策略,进一步加速其工作进程,使得人类基因组计划得以提前完成。
特点
基于对基因结构的了解及对电子机具的认识,陈奕雄博士的团队采用了更快速同时更具风险的技术全基因组霰弹枪测序法,进而创造出全世界第一台全自动定序仪ABI3600。霰弹枪测序法的思想是将基因组打断为数百万个DNA片断,然后用一定的算法将片断的序列信息重新整合在一起,从而得到整个基因组序列。为了提高这一方法的效率,1990年代,测序和片断信息整合达到了自动化。这一方法虽然已被用于序列长达6百万个碱基对的细菌基因组测序,但对于人类基因组中3千万个碱基对的序列测定,这一技术能否成功在当时还未有定论。
基因的知识产权之争
塞雷拉基因组一开始宣称只寻求对200至300个基因的专利权保护,但随后又修改为寻求对“完全鉴定的重要结构”的总共100至300个靶基因进行知识产权保护。1999年,塞雷拉申请对6500个完整的或部分的人类基因进行初步专利保护;批评者认为这一举动将阻碍遗传学研究。此外,塞雷拉建立之初,同意与国际计划分享数据,但这一协定很快就因为塞雷拉拒绝将自己的测序数据存入可以自由访问的公共数据库GenBank而破裂。虽然塞雷拉承诺根据1996年百慕达协定每季度发表他们的最新进展(国际计划则为每天),但不同于国际计划的是,他们不允许他人自由发布或无偿使用他们的数据。
2000年,经美国国家卫生研究院院长科林斯与赛雷拉公司集团协调后,由美国总统克林顿牵着两个团队领导人的手,宣布人类基因体计划完成,其所有人类基因组数据为人类共通财,不允许专利保护,且必须对所有研究者公开,塞雷拉最后决定将数据公开。但这一事件也导致塞雷拉的股票价格一路下挫,并使倚重生物技术股的纳斯达克指数受到重挫。
目标
人类基因组计划的分阶段目标如下:
遗传图谱的绘制。遗传图谱主要是用遗传标签来确定基因在染色体上的排列。1994年9月,完成了包含3000个(原计划为600-1500)标签分辨率为1-cM(即1%重组率)的遗传图谱的绘制。
物理图谱的绘制。物理图谱是通过序列标签位点对构成基因组的DNA分子进行测定,从而对某基因所相对之遗传讯息及其在染色体上的相对位置做一线性排列。1998年10月,完成了包含52,000个(原计划为30,000)序列标签位点的物理图谱的绘制。
序列测定。通过测序得到基因组的序列,是一般意义上的人类基因组计划。2003年4月,包含基因序列中的98%(原预计为95%)获得了测定,精确度为99.99%。
辨别序列中的个体差异。每一个人都有唯一的基因序列,因此,人类基因组计划发布的数据不可能精确的反映单独个体的基因序列。它只是很少量匿名捐赠人基因组的组合。人类基因组计划只是为未来鉴定不同个体间基因组差异做一些基础的框架性工作。当前主要工作在于鉴定不同个体间包含的单核苷酸多态性。至2003年2月,已有约3,700,000个单核苷酸多态性位点得到测定。
基因鉴定。以获得全长的人类cDNA文库为目标。至2003年3月,已获得15,000个全长的人类cDNA文库。人类基因组计划最开始的目标是不但以最小的错误率检测出人类基因的所有30亿个碱基对,还要从如此海量的数据中确认出所有的基因及其序列。这一部分计划正在进行中,尽管目前的数据显示在人类基因组中只有大约20,000至25,000个基因,远远低于大多数科学家先前的估计。
基因的功能性分析。今天,人类DNA序列已经存储在数据库中,任何人都可以通过互联网下载。美国国家生物技术信息中心和位于欧洲和日本的姊妹组织储存着整个基因序列,其中包含已知序列,假设基因和蛋白质。其他组织像加州大学圣塔克鲁斯分校和ENSEMBL提供附加数据,注释和观察和检索数据的有力工具。用已开发的计算机程序来分析数据,因为未经过译码的数据基本上没有用处。而这一过程将要耗费大量的时间。对未加工的DNA数据,其中已知基因的位置的标注被称为注释序列(annotation),对注释序列进行分析工作属于生物信息学的范畴。如果只由有经验的生物学家对海量的数据进行标注,经常是非常缓慢的,所以一些特定的对DNA序列进行判别的计算机程序正被越来越多地应用在基因排序工程中。当前,分析注释序列的最佳技术是利用DNA序列和人类语言之间并行性的统计模型,采用类似于计算机科学中形式文法的概念。但是,使用自动标注的注释的准确度仍然不够理想。而且计算机程序的自动判定会复制已有注释中的错误,从而使错误越来越多。对于这些错误的纠正是一个非常巨大的工程。这一阶段的另一个目标是研发出更快更有效的方法来进行DNA测序和序列分析,并把这一技术加以产业化。已获得开发的技术包括高通量寡聚核苷酸的合成(1994年)、DNA微阵列(1996年)、标准化和消减化cDNA文库(1996年)、真核(酵母)全基因组敲除技术(1999年)、大型化双杂交定位(2002年)。
完成方式
资金来源
国际计划的资金主要来源于美国国家卫生研究院和英国慈善机构威康信托基金会,后者资助了位于英国的桑格研究中心和其他一些国家的研究机构。
基因组来源
国际人类基因组测序联盟的所用于测序的基因组取样于一大批捐献者的血液和精子。只有少量的样品被用做DNA测序,又由于捐献者的身份是保密的,因此无论是捐献者或是科学家都不知道用于测序的DNA是来自哪些人。来自不同文库的DNA被克隆后用于整个计划,大多数文库由彼得·杨(Pieter J. de Jong)博士完成。科学家使用来自于两名男性和两名女性(捐献者中随机选出)的血液中的白血球,从中取得分离的DNA文库。由于质量较高,文库之一的RP11被较多地使用。有非正式的报道(在基因组计划的团体内部也盛行的说法)指出用于国际基因组计划的大部分DNA来自于住在纽约州布法罗的一名男性捐献者(编号为RP11)。
塞雷拉基因组计划使用的DNA样品来源于五名捐献者。塞雷拉基因组的首席科学家克莱格·凡特在一篇写给《科学》杂志的公开信中承认他本人是捐献者之一。
测序手段
在国际计划中,基因组被分割成多个片断(长度接近150,000个碱基对)。由于这些片断能被插入细菌中,并利用细菌的DNA复制机器进行复制,因此被称为细菌人工染色体。通过对每一个这样的片断分别应用“霰弹枪测序法”,最终将这些片断通过配对末端法(pair-end)以及其他许多定位数据重新组装在一起从而获得完整的基因组。这一手段是先将基因组分成相对较大的片断,并且在对片断进行测序前将其定位到每条染色体对应位置,所以被称为“分级霰弹枪测序法”。
塞雷拉基因组尝试用全基因组霰弹枪测序法并且没有使用附加的定位拼接。但他们由于利用了少量的公共数据来完成计划而招致他人诟病。
人类基因组测序“完成”了吗?
关于如何界定人类基因组测序完成,有多种定义。根据不同的定义,人类基因组的测序是否完成有不同的看法。曾有多个大众媒体报道人类基因组计划“完成”,而且由国际人类基因组计划所采用的定义,基因组的测序已经完成。有统计数据显示,截至2003年底,绝大部分的人类基因组已获得测定;但基因组中仍有许多的区域未获得测序。这其中的首要原因是在每条染色体的中心区域(称为着丝粒)含有大量重复DNA序列,用目前的技术进行测序的难度较大。着丝粒含有数百万(可能接近千万)的碱基对,其中的大多数完全没有得到测序。第二个原因是在染色体末端区域(称为端粒)同样含有高度重复的DNA序列。而且在46条染色体中,其末端大都不完整,因此无法精确地知道在端粒前还有多少序列;与着丝粒的情况类似,目前的技术很难测定这些序列。第三个原因是在每个人的基因组中都含有多个包含多基因家族成员的位点,这些位点的测序问题用霰弹枪测序法难以解决,而包含于这些位点中的多基因家族成员往往编码具有重要免疫功能的蛋白质。对于前两个原因,可以通过发展新的技术来解决测序问题。除了以上区域,还有一些间隙散布于基因组中,部分间隙较大,但有希望在数年内解决。总而言之,对于全基因组的大小的估计显示了92%的基因组已经获得测定,余下的高度重复的DNA序列不大可能含有基因,但在完成所有的测序之前,没有什么是确定无误的。
相对于基因组测序而言,要了解所有基因的功能还有很长的一段路要走。例如以前人们所认为的垃圾DNA实际上并不“垃圾”,它们在基因组的进化、每个个体的差异性以及许多其他方面扮演着重要角色,是世界上许多实验室着力研究的目标。
重大事件与进展
2000年6月26日,美国总统克林顿与英国首相布莱尔共同宣布人类基因组计划工作草图完成;次年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被国际人类基因组测序联盟和塞雷拉基因组的科学家分别公开发表于《自然》与《科学》杂志。这一工作草图覆盖了基因组序列的83%,包括常染色质区域的90%(带有150,000个空缺,且许多片断的顺序和方位并没有得到确定)。
1999年至2006年,完成了全部23条染色体的测序工作,具体如下:
1999年12月,22号染色体测序完成;
2000年5月,21号染色体测序完成;
2001年12月,20号染色体测序完成;
2003年2月,14号染色体测序完成;
2003年6月,男性特有的Y染色体测序完成;
2003年5月和7月,7号染色体测序完成;
2003年10月,6号染色体测序完成;
2004年4月,13号和19号染色体测序完成;
2004年5月,9号和10号染色体测序完成;
2004年9月,5号染色体测序完成;
2004年12月,16号染色体测序完成;
2005年3月,X染色体测序完成;
2005年4月,2号和4号染色体测序完成;
2005年9月,18号染色体测序完成;
2006年1月,8号染色体测序完成;
2006年3月,11号,12号和15号染色体测序完成;
2006年4月,17号和3号染色体测序完成;Human Genome Project Information
2006年5月,1号染色体测序完成;Human Genome Project Information
2004年,国际人类基因组测序联盟的研究者宣布,人类基因组中所含基因的预计数目从先前的30,000至40,000(在计划初期的预计数目则高达2,000,000)调整为20,000至25,000。预期还需要多年的时间来确定人类基因组中所含基因的精确数目。
意义
破译人类遗传信息,将对生物学,医学,乃至整个生命科学产生无法估量的深远影响。目前基因组信息的注释工作仍然处于初级阶段。随着将来对基因组的理解更加深入,新的知识会使医学和生物技术领域发展更为迅速。基于DNA载有的信息在细胞生命活动中的指导作用,在分子生物学水平上深入了解疾病的产生过程将大力推动新的疗法和新药的开发研究。对于癌症、老年痴呆症等疾病的病因研究也将会受益于基因组遗传信息的破解。事实上,在人类基因组计划完成之前,它的潜在使用价值就已经表现出来。大量的企业,例如巨数遗传公司开始提供价格合宜,而且容易使用的基因检测,其声称可以预测包括乳腺癌、凝血、纤维性囊肿、肝脏疾病在内的很多种疾病。。
人类基因组计划对许多生物学研究领域有切实的帮助。例如,当科研人员研究一种癌症时,通过人类基因组计划所提供的信息,可能会找到某个,或些相关基因。如果在互联网上访问由人类基因组信息而建立的各种数据库,可以查询到其他科学家相关的文章,包括基因的DNA,cDNA碱基顺序,蛋白质立体结构、功能,多态性,以及和人类其他基因之间的关系。也可找到和小鼠、酵母、果蝇等对应基因的进化关系,可能存在的突变及相关的信号传到机制。人类基因组计划对与肿瘤相关的癌基因,肿瘤抑制基因的研究工作,起到了重要的推动作用。
分析不同物种的DNA序列的相似性会给生物进化和演变的研究提供更广阔的路径。事实上,人类基因组计划提供的数据揭示了许多重要的生物进化史上的里程碑事件。如核糖体的出现,器官的产生,胚胎的发育,脊柱和免疫系统等都和DNA载有的遗传信息有密切关系。
延伸计划
模式生物(包括小鼠、果蝇、线虫、斑马鱼、酵母等)的基因组计划。
人类元基因组计划:对人体内所用共生菌群的基因组进行序列测定,并研究与人体发育和健康相关基因的功能。
国际人类基因组单体型图计划(简称HapMap计划):目标是构建人类DNA序列中多态位点的常见模式。由于每个个体(除了孪生子和克隆动物)的基因组都有独特之处,因此有必要对个体之间的差异在基因组上进行定位。其完成将为研究人员确定对人类健康和疾病以及对药物和环境反应有影响的相关基因提供关键信息。
人类基因组多样性研究计划:对不同人种、民族、人群的基因组进行研究和比较。这一计划将为疾病监测、人类的进化研究和人类学研究提供重要信息。
上一篇: 英国欲允许胚胎含第3人基因
下一篇: 基因疗法