第18卷 第4期2006年8月生命科学Chinese Bulletin of Life SciencesVol. 18, No. 4Aug., 2006文章编号: 1004-0374(2006)04-0397-05人类基因组SNPs的研究现状及应用前景王 娟(深圳大学生命科学学院,深圳518060)摘 要:基因组DNA是生物体各种生理、病理性状的物质基础,人类DNA序列变异约90%表现为单核苷酸多态性(single nucleotide polymorphisms, SNPs),这是一种常见的遗传变异类型,在人类基因组中广泛存在,被认为是人类疾病易感性和药物反应的决定性因素。本文主要介绍了SNPs的分类及特点、人类基因组SNPs的研究现状、SNPs在实践中的应用,以及SNPs在遗传作图、医药、遗传易感性、个体化医疗等方面的研究前景,并探讨了当前SNPs研究中存在的问题。关键词:人类基因组;单核苷酸多态性;遗传标记;个体化医疗中图分类号:Q987; Q78 文献标识码:AProspects and progress on single nucleotide polymorphismsin human genomeWANG Juan(College of Life Sciences, Shenzhen University, Shenzhen 518060, China)Abstract: DNA is the substance foundation of pathological and physiological properties of all organisms. Morethan 90% of the DNA variations in genome are single nucleotide polymorphisms (SNPs), so SNP is the mostcommon source of variation in human genome. SNPs result from single base differences between genomesequences, and are as the crucial factor of susceptibility and drug reaction. In this review, we focused on thefeatures and sorts of SNPs, introduced the progress on SNPs in human genome, and the application of SNPs inmedicine, genetic susceptibility, personalized medicines and so on. Questions relating to SNPs were discussed.Key words: human genome; single nucleotide polymorphism; genetic marker; personalized medicines人类基因组计划(human genome project, HGP)解读了分布于22条常染色体与两条性染色体上的30亿对碱基,涵盖了人类的所有生存信息。全人类只有一个共同的基因组,但每个个体中所含有的某些基因会出现细微差别,这些差别中包含了人类各种生物学现象的奥秘,如对疾病的易感性、寿命的长短、药物遗传多样性等。随着人类基因组研究的纵深发展,对人类基因组多态性及变异的研究十分必要。单核苷酸多态性(single nucleotide polymorphisms,SNPs)是DNA多态性的一种,指DNA 序列中单碱收稿日期:2005-12-31;修回日期:2006-03-15基的差异,由于其数目多、分布广泛且相对稳定,成为继第一代限制性片段长度多态性标记、第二代微卫星标记后的第三代基因遗传标记,是随着HGP的实施而发展起来的新一代遗传标记,被认为是人们疾病易感性和药物反应的决定性因素。因此,SNPs已成为当前人类基因组研究的重要领域[1~2]。1 SNPs的分类及特点人类基因组核苷酸序列中的单个碱基变异(不包括缺失、插入与重复)的发生频率大于1%时,称为单核苷酸多态性,平均密度为1/1000 bp。大约基金项目:深圳大学实验室与资产管理研究基金项目(2005-2006)作者简介:王 娟(1975-),女,博士,讲师。398生命科学第18卷25%的SNPs位于CpG位点,发生C-T转换,因CG中的C即胞嘧啶是甲基化的,它自发脱氨基而替换为T。在基因组DNA中,任何碱基均有可能发生变异,因此,SNPs所处位置既有可能在基因序列内,也有可能在基因以外的非编码序列上,分别为编码区SNPs (cSNPs)和非编码区SNP。cSNPs又分为两种,一种为同义cSNPs (synonymouscSNPs),它所导致的编码序列改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种为非同义cSNPs(non-synony-mous cSNPs)指碱基序列的改变可使翻译的蛋白质序列发生改变,从而影响了蛋白质的功能,这种改变常是导致生物性状改变的直接原因。人类DNA序列变异约90%表现为单个核苷酸的多态性,故SNPs是一种常见的遗传变异类型,其主要特性如下:(1)密度高。SNPs在人类基因组总数超过300万,其中约有20万存在于编码区,其密度比微卫星标记更高,可以在任何一个待研究基因的内部或附近提供一系列标记。(2)遗传稳定性好。SNPs被认为是一种能稳定遗传的早期突变,与微卫星等重复序列多态标记相比,其遗传稳定性更好。(3)具有代表性。虽然SNPs在编码区的分布要低于其他位置,但某些位于基因内部的SNPs可以直接影响蛋白质的编码,进而影响蛋白质结构或表达水平,因此,它们可能代表疾病遗传机理中的某些作用因素。(4)分布不均匀。由于选择压力的存在,SNPs在整个基因组中的分布不均匀,在3'表达序列标签(express sequence tags,ESTs)中的分布比在其他基因组区域中的少,在非编码区的数目远远大于编码区。(5)分析易自动化。由于每个SNP位点通常仅含两个等位基因——双等位基因(biallele),在检测时能通过一个简单的“+/−”分析进行基因型分型,而无需分析片段的长度,因而易于自动化。2 SNPs的检测技术SNPs可通过电泳、PCR、酶切、直接测序、生物信息学及DNA芯片等方法进行检测。以凝胶电泳为基础的分析方法有单链构象多态性(SSCP)、异源双链体迁移率测定技术;以PCR为基础的分析技术有等位基因特异性PCR、单核苷酸引物延伸分析;以酶为基础的分析技术有限制性片段长度多态性(RFLP)、甲基化修饰、连接酶链式反应;以杂交为基础的分析技术有列阵杂交分析、等位基因特异性寡核甘酸探针杂交。另外,针对人类cDNA和基因组文库,一些科学家发展了基于生物信息学的SNPs候选位点搜索方法,例如EST比较法[3]。经典方法PCR-单链构象多态性(PCR-SSCP)分析、RFLP等,必须通过凝胶电泳等进行分析,因此,距快速、高效、自动化的目标还相差甚远。RFLP只能检测到SNPs的一部分。上述方法仅能判断SNPs的有无,而无法确定多态位点的碱基类型,因此,这些方法发现的SNPs要再进行Sanger测序确认。对于数据库中已有的SNPs在特定人群中序列的验证性分析和频率分析,使用的技术包括位点特异性探针的应用、Tagman 实验、分子信标molecular beacons)技术等,但由于需要荧光标记以及专门的分析仪器,因此价格较高,且受仪器设备的限制。现已出现几个相对有前景的半自动或全自动地进行大量SNPs检测的方法,包括小型测序、多重反向点杂交、DNA芯片、变性高效液相层析技术等,而且由于目前大规模Sanger测序的技术已经相当成熟,使采用Sanger测序进行大规模SNPs发现也成为可能。3 SNPs的研究现状3.1 SNPs数据库 SNPs是伴随着HGP发展起来的,HGP的迅速发展为SNPs的应用提供了可行性,而鉴定人类DNA序列的差异,寻找基因组中更多的SNPs是HGP下一步的重要目标。 目前,不同基因的详细SNP图谱逐渐被完成。国际SNPs工作组(The SNP Consortium, TSC)及国家人类基因组测序组织(The International Human Genome Sequenc-ing Consortium)利用大规模基因组测序的数据,及大片段重叠DNA序列比较法,鉴定了142万个SNPs,使SNPs的密度达到1/1.9 kb[4]。NCBI dbSNP是主要的SNPs数据库(http://www.ncbi.nlm.nih.gov/SNP),该数据库始建立于1998年9月,由美国国立生物技术信息中心(NCBI)和国家人类基因组研究所(NHGRI)共同组建。该网站信息量大,更新快,相关链接多,运用SNPs的limits功能可以将查询做多种限定。在2001年5月数据库中的SNP信息就已超过2.84百万条,至2005年该数据库中超过270万条SNPs,具有完整的基因型信息[5]。TSC数据库(http://snp.cshl.org)由SNP国际协会建立,SNP国际协会是一个非营利的基金会,目的为人们提供公共的基因组数据,这项计划开始于1999年4月,收录的部分SNPs已被作图到人类的(第4期王 娟:人类基因组SNP的研究现状及应用前景399各条染色体上,目前已达到150万余条,远远超过原来的计划,它的最终目标是建立一个高密度的人类基因组SNPs图谱。JSNP数据库(http://snp.ims.u-tokyo.ac.jp/index.html)始建于2000年4月,是由人类基因组中心(HGC)、医学科学研究院(IMS)、东京大学、日本科技公司(JST)合办,目标是要鉴定基因区的15万个SNPs,并建立多态性的分析工具。截至到2002年夏季,就已发现了190 562个遗传变异。我国科学家探索人类基因组序列变异的一个重要成果:国家人类基因组南方研究中心联合国内多家研究单位建成以中国人群为主的SNPs数据库(http://biodb.scbit.org/redian1.html),并建立了与其他SNPs数据库的链接。截至2005年12月份NCBI PubMed数据库中,SNPs相关的文章数为5 335篇,仅2005年发表的就为1 215篇(占SNP相关文章总数的22.77%),2005年SNPs相关文献中与癌症有关的194篇,占2005年SNPs文献的15.97%,说明了SNPs在癌症等复杂疾病研究中的重要性。3.2 基于SNPs研究的单倍型图谱计划 寻找标记SNPs的国际遗传变异图谱计划,即国际单倍型图谱计划(Haplotype Map Project)已于2002年10月正式启动,2003年中国承担了“国际单倍型图谱计划”10%的任务,这表明我国基因科学研究能力的提高和在国际生命科学领域学术地位的提升。该计划的启动将为人类致病基因的寻找提供一条捷径。在DNA上位置比较接近的很多SNPs,会组成单倍型块并作为一个整体遗传。通过极少数的几个标记SNPs,可以识别出不同的单倍型块。单倍型图谱(HapMap)被认为是DNA的基本结构单位,大约由5 000~20 000对碱基组成。不同种族、不同个体之间的基因组序列大约99.9%都具有一致性,正是这0.1%的碱基排列顺序的差异决定了人类的遗传多态性,即人与人之间的个体差异。HapMap计划就是研究这0.1%差异的排列顺序。HapMap计划的目标在于,确定人类基因组中普通模式的DNA序列变异,通过测定序列变异特征、变异频率、它们之间的关联,绘出人类基因组的单倍型块,以及不同单倍型块的标记SNPs[6]。单倍型块数据库(http://www.hapmap.org)主要为基因型数据,可供研究者使用、下载、分析数据[7]。在I期计划中,从世界上4个地区的人群中采集269份DNA样本,现已从中顺利测定110多万条SNPs的基因型信息,11 500个错义cSNPs被成功分型[8]。由此获得的HapMap,也将成为利用人类基因组图谱寻找与疾病有关的遗传变异的重要参考。通过确定单体型,使单体型图成为用于进行关联研究的一个工具。在关联研究中,研究人员将患者的单体型与健康人(对照)的单体型相比较。破译人类基因组的单倍型图,将能大规模比较不同个体的不同单倍型图来发现与疾病相关的基因变异,为人类疾病和遗传关联分析、致病基因和致病因子的确定,药效和疾病风险的分析及人类起源进化、迁徙历史研究等提供完整的人类基因信息。这将有助于更好理解疾病发生的原因及其生理基础,从而将可能用于疾病的早期诊断,甚至能在基因突变前预测癌症的风险性。SNPs及HapMap策略的提出引发整个遗传学界基因组研究的又一热潮,其研发和应用必将大大加速人类遗传学和药物基因组学的研究。3.3 SNPs在复杂疾病研究中的现状 SNPs由于其分布广、密度高而被期望在诸如癌症、糖尿病、高血压、忧郁症和哮喘等复杂疾病的研究中起重要作用。上述疾病是多个遗传变异位点与环境因子共同作用的结果,由于发病原因复杂,涉及的基因数量多,已成为国际上疾病基因组学研究的重点,我国国家基因组南方中心已对鼻咽癌等多种疾病展开深入研究,建立了家系收集网络,取得了一定进展。国内研究者在单个基因的SNPs与疾病相关性方面进行了大量研究,如应用实时荧光技术分析N-乙酰基转移酶基因多态性与肝癌易感性的关系,结果表明,携带N-乙酰基转移酶基因慢乙酰化基因型的吸烟者可能是肝癌的高危人群[9]。目前已有实验将SNPs应用于肿瘤预后及易感性的判断。例如肺癌致癌物的易感性存在个体差异,即肺癌的基因易感性,研究较多的有:代谢酶基因多态性,如Ⅰ相代谢酶人细胞色素P450~CYP450和髓过氧化酶MPO等。法国研究者证实,MPO基因启动子(-463G>A)多态性导致该基因较低的表达,可以降低肺癌患病的危险性[10]。日本学者发现了HER-2基因编码区的一个SNP与胃癌的发展及恶性程度有关[11]。目前有关复杂疾病与SNPs之间关系的研究,国内外报道均集中在单个SNP与疾病相关性的检测方面。大规模或全基因组范围内检测SNPs与疾病相关性的报道较少。Zhou等[12]利用两条常染色体上的20个SNPs,使用荧光定量PCR的方法,检测早期结肠癌患者的等位位点来判断病人预后。Mohammad等[13]使用高400生命科学第18卷密度SNP芯片(包含近1500个SNPs),在全基因组范围内检测了膀胱癌患者的SNPs发生情况,这种全基因组范围内的SNPs分析具有潜在的预后和诊断价值。肿瘤等复杂疾病的早期诊断不是靠完全单一的方法来完成的,必定是多种诊断方法的互补。在分子生物学迅猛发展的今天,客观科学地面对基因多态性,致力于疾病相关基因的探索研究,建立基于遗传标记和SNPs的诊断技术,将会促进复杂疾病的早期诊断更早地变为现实。4 SNPs的应用前景DNA序列的变化对人类疾病、环境攻击、药物和治疗的反应等产生重大影响。因此,SNPs对生物医学研究、药物开发、医学诊断和法医学发展有重要意义。除此以外,SNPs图谱还有望被用来识别基因组上成千上万个附加标记,以简化HGP研究者绘制的基因组图谱。4.1 SNPs的主要应用 SNPs的应用主要表现在以下几个方面:(1)制作高密度的SNPs图谱,提高人类遗传图的精度;(2)通过对比健康和患病人群SNPs发生频率的差异,确定SNPs与疾病之间的相关性,或者比较高危人群与低发人群SNPs的差异,寻找疾病易感性的遗传标记;(3) cSNPs往往代表基因型和表现型的改变,利用疾病相关的cSNPs,研究编码区碱基变化引起的基因表达水平与表达产物功能的改变,乃至进一步研究对疾病发生发展将产生何种影响;(4)将SNPs标记与癌细胞染色体缺失以及基因杂合性缺失的研究相结合,利用SNPs数量多分布广的特点,对目的片段或基因作出更加精细的标定,从而使研究不断深入;(5)药物的遗传多态性表现为药物代谢酶的多态性、药物转运体和受体的多态性,这些多态性的存在都可能导致药物治疗中药效和毒副作用的个体间差异。SNP的研究为基因诊断,尤其是疾病的早期诊断提供更多依据。4.2 SNPs与个体化治疗 人类基因组SNPs是诸多生物学性状差别的重要遗传学基础(例如疾病易感性、抵抗性以及药物反应性等)[14~15]。针对SNPs的研究可以揭示人种、人群和个体之间DNA序列的差异,这将对疾病的诊断、治疗和预防带来革命性的变化,为实现个体化医疗起到关键性作用。在患者遗传构成的基础上实现个体化医疗,从而得到最好的效果并将副作用降至最低。人类基因组碱基序列差异的解析,将为相关联的医药领域疾病的治疗带来革命性飞跃,在不久的将来有望实现“量体裁衣”式的个体化给药治疗方案[16]。JSNP数据库建立的目的是为了根据每个患者的遗传背景提供合适的药物与合适的剂量,即实现个体化医疗。该数据库建立了多个分支库,包括基因编码的各种酶、转运体、受体等,它们在代谢、转运和药物作用方面发挥重要作用。至今,工作人员已经检测了日本人基因组中4 068.3 kb的区域,鉴定了7 552个遗传变异,包括6 733个SNPs,上述工作为个体化医疗奠定了一定的基础[17]。目前,正在兴起的药物基因组学研究遗传因素对药物作用的影响和不同基因型个体对药物反应的差异,从而为临床有针对性地合理用药,及根据不同基因型群体对药物的反应来改进药物设计提供了理论依据,促进了个体化用药的进程。5 SNPs研究中存在的问题多数SNPs的发生频率较低,在不同人群中的分布亦有较大差异。因此,研究者必须对大量人群的SNPs进行比较,以找出在疾病发生过程中真正起作用的SNPs。目前在硬皮病方面的研究也表明,分析人群中的SNPs时,使用的样品数少则重复率低[18]。SNPs是在人类漫长的进化过程中基因组与内外环境交互作用的累积结果,不同的SNPs位点在进化中的产生时间不同,在不同人群中的分布频率及杂合程度也不同,在进行疾病分析时提供的信息量可能存在较大差别[19]。耶鲁大学的人口遗传学家Kenneth Kidd指出,任何一个有用的SNP在不同的特定人群之间变化巨大,大概只有三分之一的SNPs普遍适用于所有的人群。这意味着研究某一特定人群的科学家需要寻找更多数量的SNPs。同样,由于研究条件的差异,研究对象的人种、生活地域的不同,生活习惯的不同等因素使研究结果存在差异。在不同的亚群中等位基因的频率可能有差别,例如在白种人中表现多态性的标记位点在中国人中可能没有多态性。我国幅员辽阔,民族众多,一般采集样本的群体很难具有广泛的代表性,应收集多地区、多民族的详细资料。构建信息量丰富的SNPs图谱,建立全球性合作,共享DNA样品和细胞标本的公共资源十分必要。几乎所有复杂疾病均为多基因疾病,在疾病发生过程中起作用的是一组基因。由于技术条件的限制和认识上的差距,迄今为止,疾病的遗传研究大多从单个基因入手,我们应该从整个基因组及其整第4期王 娟:人类基因组SNP的研究现状及应用前景401体的功能状态来考虑。少数基因的多态性不能真实全面地反映出疾病发生的原因。有时因为经费和精力投入等因素的制约,SNPs与疾病相关性的研究需量力而行。Fornage和Doris[20]指出分布在人类基因组中的SNPs数以百万计,检测种群样本中每一个SNP与疾病之间的关联既不实际也无必要,可以使用相对较少的SNPs的集合检测其与疾病的相关性。总之,SNPs与疾病相关性的研究要结合实际情况制定实施方案。SNPs领域的研究还存在许多问题,但其在基因作图、疾病相关性分析、致病基因的搜寻、群体遗传学及药物研究等领域已显示出诱人的前景。发展大规模快速检测SNPs的技术、鉴定起重要作用的功能基因编码区域的多态性、绘制高密度的SNPs图谱、确定SNPs与某些恶性疾病之间的相关性,这些都是当前SNPs研究领域中需要迫切解决的问题。总之,深入解读人类基因组,不但对生物医学的研究产生重大影响,而且会促进医疗保健事业的快速发展。[参 考 文 献][1]Tolle R. Information technology tools for efficient SNPstudies. Am J Pharmacogenomics, 2001, 1(4): 303~314[2]顾 丰. 单核苷酸多态性及其数据库. 中华医学遗传学杂志, 2001, 18(6): 479~481[3]Huntley D, Baldo A, Johri S, et al. SEAN: SNP predictionand display program utilizing EST sequence clusters.Bioinformatics, 2006, 22(4): 495~496[4]生物信息学 [M]. 赵国屏主编. 北京: 科学出版社, 2002.12[5]Zaitlen N A, Kang H M, Feolo M L, et al. Inference andanalysis of haplotypes from combined genotyping studiesdeposited in dbSNP. Genome Res, 2005, 15(11): 1594~1600[6]The International HapMap Consortium. The InternationalHapMap Project. Nature, 2003, 426(6968): 789~796[7]Thorsson G A, Smith A V, Krishnan L, et al. The Interna-tional HapMap Project Web site. Genome Res, 2005, 15(11):1592~1593[8]The International HapMap Consortium. A haplotype mapof the human genome. Nature, 2005, 437(7063): 1299~1320[9]高建平, 黄跃东, 朱青川, 等. N-乙酰基转移酶基因多态性与肝癌易感性的关系. 中华肝脏病杂志, 2003, 11(1):20~22[10]Chevrier I, Stucker I, Houllier A M, et al. Myeloperoxidase:new polymorphisms and relation with lung cancer risk.Pharmacogenetics, 2003, 13(12): 729~739[11]Kuraoka K, Matsumura S, Hamai Y, et al. A single nucleotidepolymorphism in the transmembrane domain coding regionof HER-2 is associated with development and malignantphenotype of gastric cancer. Int J Cancer, 2003, 107(4):593~596[12]Zhou W, Goodman S N, Galizia G, et al. Counting alleles topredict recurrence of early-stage colorectal cancers . Lancet,2002, 359(9302): 219~225[13]Mohammad O H, Chyi-Chia R L, Paul C, et al. Genome-wide genetic characterization of bladder cancer: a compari-son of high density single nucleotide polymorphism arraysand PCR-based microsatellite analysis. Cancer Res, 2003, 63(9): 2216~2222[14]Taningher M, Malacarne D, Izzotti A, et al. Drug metabo-lism polymorphisms as modulators of cancer susceptibility.Mutat Res, 1999, 436(3): 227~261[15]Mohrenweiser H W, Jones I M. Variation in DNA repair isa factor in cancer susceptibility:a paradigm for thepromises and perils of individual and population riskestimation? Mutat Res, 1998, 400(1-2): 15~24[16]许 玲, 孙大志, 余志红. 肿瘤基因单核苷酸多态性研究及个体化医疗的思考. 世界华人消化杂志, 2005, 13(5):592~595[17]Iida A, Saito S, Sekine A, et al. Japanese single nucleotidepolymorphism database for 267 possible drug-related genes.Cancer Sci, 2006, 97(1): 16~24[18]Assassi S, Tan F K. Genetics of scleroderma: update onsingle nucleotide polymorphism analysis and microarrays.Curr Opin Rheumatol, 2005, 17(6): 761~767[19]Coddard K A, Hopkins P J, Hall J M, et al. Linkage disequi-librium and allele-frequency distributions for 114 single-nucle-otide polymorphisms in five population. Am J Hum Genet,2000, 66(1): 216~234[20]Fornage M, Doris P A. Single-nucleotide polymorphismgenotyping for disease association studies. Methods MolMed, 2004, 108: 159~172