后基因组时代研究热点—genome-wide association study在遗传病研究中的应用-行业资讯

后基因组时代研究热点—genome-wide association study在遗传病研究中的应用

随着人类基因组图谱的完成，对基因组的分析已经成为新的研究热点。通过对人类基因组序列的分析得到人群中与有遗传倾向或受遗传与环境因素共同影响疾病的相关基因更成为了基因组分析研究中的热点。这种对genetic risk factors的分析对临床医学和流行病学都有很大启发，促进了疾病诊断、治疗和预防等各方面的改善。在基因组分析的方法中，目前最有效的是genome-wide association study,该方法与以前的linkage analysis相比有更大的power，与candidate-gene studies相比coverage更全面，不局限于已知的可能与疾病相关的染色体区域。本文对association study的思想、方法等做简单介绍。

Genome-wide association study是建立在对SNP（single nucleotide polymorphism）的确定和assay的基础上的。要真正理解Genome-wide association study我们就要首先明确SNP的相关知识。任何两个人的基因组序列都是99.9%一致的，但那其余0.1%的不同却可能对个人对某些疾病的易感性有很大影响。在基因组中每一个loci都可能有不同的alleles，基因组中最常发生的polymorphism就是single nucleotide polymorphism,即SNP, 这些SNP在基因组中的密度大约是每300bp一个。研究中通常只选取minor allele frequency（MAF）在5％以上的SNP位点进行比较，以确保统计学意义。通过对遗传mechanism的研究发现，相隔在50kb以内的SNP在由亲代传给子代的过程中更容易发生linkage disequilibrium（LD），即有physical proximity的SNPs更倾向于以block的形式遗传，所以在实际应用中每一个block中只要选择一个与其它SNPs关联度最大的SNP位点作为tag SNP，就可以通过比较和assay各tag SNP的异同，确定一个基因组的haplotype类型。在基因组研究中将个体样本的SNP按在染色体上的排列顺序单独列出，得到的序列就称为是该样本genotype的haplotype组成。国际上的HapMap Project通过选取各代表性人种的大量个体，已经得到了由多于3.1 million SNPs标记的annotated，high-resolution map[ii]。此后的具体实验中只要将case组的haplotype与已得到的map进行matching，就可以知道可能与疾病易感性相关的SNP位点，进而得到相关的染色体区域。

有了关于SNP的知识，我们就可以理解，Genome-wide association study是一种通过high-density array 进行genotyping从而确定polymorphism，并和统计学方法相结合，进而得出与疾病相关可能性很大的genetic risk factors的方法。Genome-wide association study 所确定的可能与遗传易感性相关的SNPs通过进一步的与control group中相对应的SNPs的比较而得到确认。（有时还要进行在第二个cohort中的fast-trackassay。）Genetic risk factors主要分两种类型，一是DNA序列的碱基改变，另一个是DNA序列的copy number改变。通常的association study只能确定那些和moderate risk有关的DNA序列(流行病学上对环境影响因素也只能确定那些与moderate risk有关的序列)。
对碱基改变的测定在Robert Sladek 等人确定II型糖尿病（T2DM）相关loci的研究[iii]中有很充分的说明。这项研究是该种方法的标准研究，它以article的形式刊登在Nature上。它分为两个阶段，第一阶段是对有1,363个个体的法国case-control cohort的392,935个作为marker的SNPs进行genotpyping检验，第二阶段是针对第一阶段结果中与T2DM相关最显著的59个SNPs的rapid conformation。在genome-wide association study中样本的选取是很重要的，比如Sladek的这项研究中在第一阶段的样本中考虑到了要增加样本中risk alleles的含量，要尽量保证提供样本个体的表型一致，同时还要尽量排除其它系统误差对统计结果的影响。在研究中Sladek等人应用了在SNP assay中广泛使用的两个平台：Illumina Infinium Human 1 BeadArrays和Human Hap300 BeadArrays来筛查从Phase I HapMap得到的tag SNPs。该研究确定了四个有导致患common diabetes mellitus风险的variants的loci，其中一个恰好是已知与diabetes mellitus相关的[i]TCF7L2基因，这也证明了该实验的准确度，从而也证明了genome-wide association study在elucidation of genetic traits中的可行性。
DNA序列copy number的改变的检测在Lupski的feature文章[iv]中做了介绍。传统上的分子医学模型是以sickle cell disease为模型的单基因改变从而使合成的蛋白发生变异所导致的遗传疾病。但是随着人类基因组reference sequence的完成和能测定基因组改变的技术的发展，人们发现事实上基因组中由于deletion和duplication所造成的碱基对的改变是SNP所致碱基对改变的两到三倍，而且即便是在亲缘关系很近的个人之间也有很多这种由deletion和duplication所造成的基因组结构的不同。Lupski认为，这种genomic segments的deletion和duplication与sporadic disease的发生是有关的(可能是单一亲代的基因组发生rearrangement就导致疾病发生，也可能是父母双方的变异都不足以起到影响自身功能的程度，单两者在子代中的结合导致了疾病的发生)。Redon等人的研究确认了1,400个发生copy-number variation的区域，这些区域涵盖了14.5%被认为与遗传疾病相关联的基因，相关数据可以在OMIM（http://www.ncbi.nlm.nih.gov/omim）的数据库中找到。可能导致很多复杂的mental-retardation疾病的Submicroscopical genomic deletions and duplications在临床上需要用genomic array的DNA chips确定。一旦确定某疾病是与gene dosage的异常有关，那么临床治疗和药物研发的中心都要从修正不正常蛋白的功能转向修正它们的不正常含量。鉴于variation in genomic rearrangement的普遍性，今后的association study和linkage analysis都应考虑copy number对疾病易感性的影响。最后，也许一些常见的行为表型（phenotype in behaviors）也可能是受这种个体间DNA序列copy number的不同影响的，这需要进一步的研究。
在genome-wide association analysis应用中的关键知识是DNA chips的原理和应用以及统计分析。用DNA chips做SNP assay，简单说来是首先在chip上做好可能的SNPs的各种探针，然后取样本做PCR，得到的扩增样本与chip上的探针杂交，最后根据得到的荧光的位置判定样本的基因组成。
随着相关技术的发展，现在的SNP chips已经可以在一个样本上检查超过500,000个SNPs。正是通过这样的方法，常见病的inherited genetic underpinnings正被一点点发现。今年的NEJM上有多篇相关报道，包括了前列腺癌、乳腺癌、糖尿病以及冠状动脉疾病。但是伴随着数据量变得前所未有的大，随之而来的从海量数据中得出统计学上有意义的关系的难度也迅速增大，因为随着数据量的扩大，在每一次assay中得到的假阳性结果数量也变大很多。面对这种情况，传统的统计方法是采用Bonferroni approach。（比如对于500,000个样本，将一般的p值0.05除以500,000，得到我们采用的cutoff p值0.0000001，这个值也被称为是genome-wide significance。）但实际中由于SNP chips的价格昂贵，所以大部分的实验检测得到的样本是很有限的；或者由于虽然基因型确实与疾病易感性相关，但是这种关联程度很低；或者由于实验中会采取分步进行assay的方法，这时即便是有很强关联程度的基因型在第一阶段都很难达到0.0000001这以标准，这些情况都会导致Bonfirroni approach的不合适。鉴于以上原因，在genome-wide association study中更让人信服的不是p值的stringency有多高，而是由一组样本得到的association在多大程度上可以在其它同样大规模的重复实验中得到证实。
针对同一疾病进行的association study的结果之间可以互相比较，这种比较对于我们对单一实验中犯第一和第二类错误的可能都能做出估计，从而得出与某疾病关联最大的haplotype的类型和发生单核苷酸变异的位点。同时，这种比较还可以帮助以后的实验缩小要进行assay的目标范围，这对节省实验成本，提高效率核准确度都是由重要意义的。所以如果有所有进行genome-wide association study的实验工作组的结果统一登记在一个公开的数据库里面（如登记基因序列的GENBANK），那无疑是对疾病相关基因的确认和进一步实验的指导都有重要意义。在这方面有些组织已经先行一步，比如The National Center Institute’s Cancer Genetic Markers of Susceptibility project已经将他们在前列腺癌和乳腺癌研究中得到的p值，relative risks，和置信区间的相关数据在发表文章前就公布在了http://cgems.cancer.gov。同样的，the Diabetes Genetics Initiative的研究人员也将他们的研究结果公布在了www.broad.mit.edu/diabetes 上。
Genome-wide association study是近期兴起的研究热点，由于它在理论研究和实际应用中的作用以及整个工作完成的复杂程度，它必然会持久的作为后基因组时代研究的主要课题之一。同时，genome-wide association study也是人类遗传学、分子生物学、医学统计学和DNA microarray技术等学科的交界，因此还有巨大的发展空间，需要各学科的科研人员参与其中。人们开始认为只要知道了DNA序列，就知道了遗传信息，但在Human Genome Project完成后才发现，整齐线形排布在染色体上的碱基序列所包含的信息不是人类能够理解的。下一个希望就是genome-wide association study，希望能通过association analysis，至少得出关于疾病遗传易感性的信息，而这如果真能在某天实现，就能帮助现代医学完成从治疗医学到针对个人的预防医学的转换，这也是长久以来医学界的梦想之一。