Journal Club (第001期): 遗传关联的网络扩展定义了人类细胞生物学的多效性图谱

img

img

这是2023年1月发表在Nature Genetics上的一篇文章。文章的通讯作者是 Pedro Beltrao教授,网络上有关他的最近动态是 “2022年1月,加入苏黎世联邦理工大学分子系统生物学研究所”。

多种机制导致了生物遗传物质发生了变异,这会导致生物大分子上的改变并影响它们的相互作用,随后可能会导致细胞功能的改变,最后导致人类个体产生不同的性状或疾病,而自然环境的选择作用又重塑了这些遗传变异在人群中的分布。如何建立全面的模型来解释DNA变化导致各层面上的差异是实验室的长期目标。

一、背景

相互作用的蛋白质倾向于参与相同的细胞功能,并且对相同的生物性状很重要。通过关联有罪的原理,已经证明分子网络可以用来预测人类基因的功能或疾病相关性。对大量不同的人类性状的遗传学研究也为多效性研究打开了大门,研究多效性可以通过增加药物的潜在适应症或者避免不良的副作用来帮助药物发现过程。人类GWAS数据已经被广泛用于量化SNP水平上的多效性,尽管这已经阐明了多效性的程度和性状之间的关系,但它并不经常导致对其共同遗传基础的分子机制的识别。在这里,作者通过网络扩展增强了1002个性状的GWAS数据,目的是研究人类生物水平上的多效性细胞过程。

二、方法

img

文章用到的Personalized PageRank(PPR)网络传播算法是以PageRank(PP)算法为基础的。两者区别在于PPR算法在网络传播前可以给网络指定种子并自定义权重。PageRank算法是谷歌创始人Page和Brin于1996年提出,这也是谷歌浏览器搜索引擎网页排序使用的算法。

对于上图给出的一个抽象的有向图网络(由4个节点和若干条边构成),如果把其中一个节点作为网页,有向箭头作为指向另一个网页的超链接,那么现在有一个基本问题:哪些网页在网络中更重要?针对这个问题有两个朴素的想法:1.被更多网页链接的网页更重要。2.被高影响力网页链接的网页更重要。上图左上角通过公式描述了这些想法,根据公式代入可以得到有关各个节点重要性分数的四元一次方程,最后通过系数矩阵求解零空间下的特征向量,就得到了各个节点的PageRank分数0.384、0.432、0.720和0.384,表明3号节点在网络中最重要。值得注意的是工业上往往通过数值分析求近似解而非精确解。

img

整个文章的分析方法可以分为三部分:1.准备工作。包括整合已有数据库构建更全面的人类互作网络,以及利用Open Target Genetics机器学习框架通过GWAS汇总数据计算基因的L2G分数。2.单个性状的网络传播分析:1002个性状选取L2G>0.5的基因作为种子,进行网络传播PRR分析。每个表型定义基因模块,判断模块是否与该性状相关以及进行GO注释。3.以PPR网络排名分数为介导的性状间关系分析,和多性状基因模块分析。

img

最后,作者又用网络传播的方法,对炎症性肠病(IBD)选取了候选基因,增加了该疾病生物机制的认识。

三、结果

3.1 利用网络传播系统地增强GWAS

作者通过整合多个公共数据库构建了互作网络,包括57,917个边,18,410个节点(图1a)。

性状的gwas关联通过Open Targets Genetics给出的locus-to-gene (L2G)分数映射到基因,它是一个机器学习方法整合了一系列特征例如SNP fine-mapping,基因距离和数量性状位点信息来推断因果基因(图1b)。1002个性状共鉴定出7660个GWAS相关基因,其中7248个映射到互作网络中(图1c)。对于每个性状,GWAS相关基因(L2G>0.5)作为互作网络传播的种子,到它们路径短的基因PPR分数高(图1c)。每个性状PPR分数排名前25%的基因通过walktrap聚类定义模块,最终906个性状鉴定出了基因模块,通过Kolmogorov-Smirnov test鉴定性状相关模块(图1c)。

共纳入1002种性状进行上述分析,这些性状根据EFO系统 分为了21个组(治疗领域),这些性状的GWAS相关基因数目分布有差别,中位数是6,范围是2-763(图1d)。为了测量网络扩展恢复性状相关基因的能力,利用DISEASE 数据库已知药物靶点数据库ChEMBL构建了金标准疾病相关基因集,网络方法的AUC平均值大于0.7(图1e)。

img

图1-基于网络的GWAS增强方法的实现和基准测评

3.2 网络传播鉴定了相关的人类性状

为了基于受干扰生物过程的相似性探索trait-trait关系,作者使用网络传播分数的成对距离构建了分层聚类树。共定义了54个亚组,这些性状倾向于根据功能相似性分组:其中34个亚组内的主要EFO祖先注释占比超过50%(图2a)。利用CHEMBL数据库获取每个亚组中疾病的适用药物。包含8个亚组(64个性状)不包含相关的药物,表明是药物开发中不完善的领域(图2a)。图2b中,展示了性状根据PPR得分聚类到一起的例子:如免疫系统疾病,皮肤疾病和蛋白测量。

img

图2-GWAS数据的网络扩展决定了性状的遗传和功能相似性

3.3 跨人类性状的基因模块多效性

鉴定出了2021个与对应性状关联的模块,其中886(43.8%)特异分布在一个性状中,剩余的73个模块分布在2个及以上的性状中(图3a)。对于73个多效性的基因模块,作者强调那些在性状分组中显著富集的(图3a黄色)。最具多效性的前6个基因模块分布在56-110个性状中,通过GOBP富集到蛋白泛素化、细胞外基质组织、RNA加工和G蛋白偶联受体信号(图3b)。为了促进细胞生物学和药物再利用的机会,作者注释了多效性基因模块中的基因,使用来自ChEMBL、Clinvar和小鼠敲除表型数据库(图3a),将在下面的部分探讨这些模块中的几个示例。

img

图3-多性状关联的基因模块用于研究共享的生物过程和药物重利用机会

3.4 共享机制和药物重利用的机会

作者鉴定了两个表型亚组(骨和筋膜炎相关的)有共同的决定基因模块(图3c),这个基因模块在wnt signaling基因集中富集。作者从Clinvar数据库中收集了含有可能存在致病变异的基因,上述共享的基因模块在牙齿发育不全和骨相关疾病患者的Clinvar变异基因中显著富集(图3c)。一些具有ClinVar变异的基因,如LRP6、SOST、WNT1、WNT10A和WNT10B,并不通过GWAS与骨病相关(L2G<0.5)。另外,该模块包含Romosozumab的靶点(SOST),一种被证明对骨质疏松有效的药物(图3c)。

作者另外鉴定了一个包含10种呼吸道和皮肤免疫相关疾病的性状组,它们享有3个显著富集的基因模块(图3d)。其中更组特异的两个基因模块,它们鉴定出了一些已知致病基因但是gwas却没有鉴定(L2G<0.5),如 IRAK3, TNF, ALOX5, TBX21(图3d)。小鼠模型研究表明IRAK3在白细胞介素-33(IL-33)诱导的气道炎症中的调控。虽然临床中没有使用治疗IRAK3的药物,但该分析表明它可能作为哮喘和其他相关疾病的相关药物靶点。作者通过网络鉴定了41个潜在靶点对应的126种药物(图3d)。排除已经靶向治疗上述10个疾病的药物后,剩下18种潜在药物靶向于5个基因。

3.5 免疫介导疾病的基因模块

从分层聚类树中选取一个免疫系统相关的性状组为例进行讨论。这个组可以进一步划分为2个亚组,一个联系了 IBD、多发性硬化症和系统性红斑狼疮,另一个联系了乳糜泻、白癜风和其他疾病(图4a)。我们发现6个基因模块特异富集在其中至少一个组中,模块注释结果如图4a行名所示。这些模块中存在的基因在关键免疫组织中表现出较高的相对表达(图4a)。6个基因模块如图4b所示,红色/蓝色表示不同的性状亚组,连线颜色表示基因重叠程度。链接不同颜色的圈表示富集或存在药物靶点。

作者从原发性免疫缺陷患者中发现了多个具有ClinVar变异的基因(如IRF9、IRF7、STAT1、STAT2),这些基因不是GWAS关联基因(图4c),但在它们的网络附近,这为该基因模块对这些疾病的重要性提供了证据。为了确定具有再利用潜力的药物,作者排除了上述性状组中已知的药物后,确定了49种具有20个靶点的药物(图4c)。其中包括 ulimorelin,一种用于治疗胃肠道梗阻的胃饥饿素激素促分泌受体GHSR的激动剂,这表明了一个潜在的再利用机会。

img

图4-自身免疫性疾病的基因模块分析

3.6 网络辅助IBD候选基因的优先排序

对于IBD手动选择了37个因果基因,以及选择L2G分数>0.5的110个基因作为种子进行网络传播。结果表明手动选择的37个种子基因在200kb范围内比其他基因有更高的PPR分数(图5a),表明这些种子基因间有紧密的相互作用。110个L2G>0.5的种子基因也有更高的PPR分数(图5b),表明它们是IBD有力的候选基因。GWAS低p值SNP的10KB范围的基因,富集高PPR分数的基因(图5c),这意味着大量与lead SNP相关的基因没有达到典型的5e-8阈值。排除手动选择的37个种子基因,网络方法最终选择出42个候选基因,如PIPK2基因座不是离Leadsnp最近的,但是网络分数99%,并有文献表明其在IBD中的潜在作用。候选基因中包含并没有在IBD中很好鉴定的PTPRC和BTBD82。

img

图5-一个IBD特异的网络富含可能的因果基因

为了研究手动选择基因和候选基因的多效性,我们观察了分析得到的与IBD显著相关的8个基因模块(补充图8)。37个手动选择加42个候选基因中,有35个在这8个模块中找到。有趣的是,作者发现这些基因大多数位于只与IBD相关的模块中,特别是receptor signaling pathway via JAK-SKAT这个模块。相反,与IBD相关的多效性模块中很少有IBD候选基因。这个分析表明JAK-STAT相关模块可能是具有IBD特异的新的候选疾病基因和药物靶点的最佳来源。

img 补充图8-IBD关联的模块和映射手动选择/候选IBD基因

这是与IBD模块显著关联的JAK-STAT基因模块网络图(补充图9)。蓝色边框的节点对应GWAS显著的基因,红色节点的对应手动选择的种子基因加基于网络的候选基因。

img

补充图9-IBD关联的基因模块JAK-STAT

四、讨论

利用覆盖范围增加的人类交互组网络和新的SNP-to-gene映射工具,作者鉴定了906个与人类性状显著相关的基因模块。网络传播可以检索到那些不在GWAS位点上,但可能调节相同生物过程的基因,可能作为潜在的药物靶点。研究也有一些局限性:通过网络传播识别的基因不会有关于影响方向的信息,需要更多的工作和解释来深入了解调节这些基因的影响方向。

另外已有研究表明,使用的网络对网络方法的性能有重要影响,因此可以增加网络的覆盖度和获得组织或细胞类型特异性网络的计算或实验方法,将会对网络传播的有效性产生巨大影响。

Shengzhe Bian
Shengzhe Bian
PhD student