在周五的《科学》杂志上,来自瑞典皇家理工学院等机构的研究人员发布了一个“人类癌症病理图谱(Human Pathology Atlas)”,他们通过对近 8000 名患者的数据进行分析,总结出了 17 种常见癌症中,全部蛋白编码基因表达的情况如何影响不同癌症患者的预后及生存 [1]。
他们建立起来的图谱包含超过 90 万条可预测患者生存期的生存曲线和 500 万幅病理学图像,通过现有的数据,他们可以为患者生成个性化的模型,预测蛋白水平和肿瘤代谢的变化会怎样影响肿瘤的发展,好进行有针对性的治疗,改善患者预后,延长患者的生存期。在癌症患者个性化治疗这条“梦想大道”上,科学家们又迈出了重要一步。研究的通讯作者是瑞典皇家理工学院的 Mathias Uhlén 教授,他是欧洲生物技术联合会的主席,也是人类蛋白质图谱项目(Human Protein Atlas,HPA)的领导者 [2]。Uhlén 教授将这次“癌症病理图谱”中的数据放在了 http://www.proteinatlas.org/pathology 网站上,可供其他研究人员和患者获取。
Mathias Uhlén 教授
在过去的十几年里,科学家们做了大量的工作,建立了癌症基因组图谱(TCGA)、人类蛋白质图谱(HPA)等等,加速了我们对癌症的整体了解。在这次的研究开始前,研究人员首先从 TCGA 数据库中提取了 11000 名癌症患者中 9666 人的转录组和临床数据,共覆盖 33 个癌种。他们分析了这 33 种癌症中的所有蛋白质编码基因(19571 个)的表达水平,同时也分析了它们在 HPA 项目中 162 名健康志愿者的 37 种正常组织中的表达。
研究人员发现,有 5000 多个基因在癌症患者和正常组织中都表达,还有 2000 多种基因在癌症患者中表达但在正常组织中受到限制,它们大多能够调控 DNA 的复制、细胞凋亡以及有丝分裂。
接下来,研究人员在这 33 种癌症中选择了 17 种常见癌症,包括 7932 例肿瘤样本。他们发现,患同一种癌症的患者基因表达的个体差异很大,而总体来看,17 种癌症的基因表达又有很大的重叠。这意味着对于一些患者来说,他们的基因表达有可能会更加贴近于其他类型的癌症,而不是本身所患的癌症,这对于靶向治疗具有一定的指导意义。但是唯独肝癌是个例外,它与其他类型的癌症几乎没有重叠,有着相对独特的表达。
不同癌症基因表达的重叠情况,左上灰色就是肝癌
研究人员对每个患者的生存时间等临床数据和基因组数据进行了 Kaplan-Meier 生存分析,得到了单个或是多个基因表达水平高低与生存期之间的关系,以此来鉴定“预后基因”。17 种癌症和 19571 个蛋白编码基因共产生了 1 亿多个 Kaplan-Meier 分析图,最终根据分析图的结果将这些基因分为了有利于预后(高表达与更长的生存期有关)和不利于预后(高表达与更短的生存期有关)的基因。
不同的癌症类型中,有利和不利的基因比例也不同。值得注意的是,有 2375 个基因在不同的癌症中对预后的作用是相反的,这也表明对预后基因表达的蛋白的功能研究是非常必要的。在这些预后基因中,只有少数已经在过去的研究中被证明有预测患者预后的价值,比如与结直肠癌生存率有关的 RBM3 基因 [3]。
但是大多数基因都是以前没有被研究或重视的,通过这次的成果,相关领域的研究人员也可以有针对性的对一些基因开展研究,探究它们究竟是发挥主导作用还是只是随着其他的基因表达变化而变化。
但是如果想要应用于临床的话,一次性分析一万多个基因是不太现实的,因此研究人员建议可以选择每种癌症中影响最大的 5 个有利基因和 5 个不利基因,通过它们也能进行生存分析,做临床预测。
不同癌症预后基因的数量(横线上下数量尺不同哦)
在 17 种癌症中,对于本身 3 年生存率很高的癌症(睾丸癌和前列腺癌,都超过了 95%),鉴定出的预后基因是相对较少的,可能是由于患者的生存期差异不大,因此还需要更大队列的研究才能确定更多的预后基因。既然有少的,那就一定有多的,肝癌和肾癌就是其中“翘楚”,它们分别有 2892 和 6070 个预后基因,其他癌症最多也没有超过 2000。而其中肝癌的 2892 个预后基因中,有 2629 个都是不利预后的,比例高的惊人。研究人员又检查了不同癌症类型之间预后基因的重叠情况,对于大多数癌症来说,它们“共享”的预后基因都不多,而且没有一个基因被 7 种以上的癌症共享。在有利预后基因中,只有肝、肾、肺和胰腺癌的显著重叠,而不利预后基因中,则是肾、乳腺、肺和胰腺癌的重叠较为明显。
研究人员发现,不利于预后的基因大多都和细胞增殖有关,包括有丝分裂、细胞周期调控等。他们单独研究了与细胞周期调控有关的 314 个基因,其中 194 个(62%)的基因都属于不利基因,至少在一种癌症中有表达量的增加。然而这些基因在不同癌症间共享的不多,这说明虽然它们虽然都是不利预后的基因,但是靶向同一个在不同的癌症中效果是不同的。
以肝癌为例,和其他癌症共享(浅橘色)或是独有的(玫粉色)不利预后的调控细胞代谢的基因
研究人员进一步分析了与总体高生存率相关的高表达基因,这些有利预后基因大多被认为在正常组织中高表达,而在肿瘤组织中表达减少。仍然以肝癌为例,研究人员发现 66% 的在正常肝脏组织中高表达的基因在肝癌患者或是肝癌细胞系中表达下降,而它们的表达量与肿瘤的分级呈负相关。
按照目前常用的三级分级法,肿瘤以分化程度被分为 G1- 高分化、G2- 中分化和 G3- 低分化,肿瘤的分级越高,分化程度越低,恶性程度越高,生长越快,预后越差。而这次的分类结果则显示,这些组织高表达基因表达量越高,患者的预后越好,这与肿瘤分级越高,患者预后越差、存活率越低的已知概念相匹配。
研究人员还做了一些抗体的检测,他们发现这些抗体的量也可以作为预测预后的因素之一。比如癌症睾丸抗原在多个类型的癌症中表达,而在正常情况下中,它只会出现在免疫豁免部位,比如睾丸和胎盘。再次以肝癌为例,研究人员对正常肝脏、肝癌患者的活检组织和肝癌细胞系中的睾丸抗原表达做了检测,发现肝癌患者的活检组织和肝癌细胞系中的表达量远远高于正常肝脏。
每个样本个体化 GSMM 的建立思路
除了这些外,研究人员还将这次的数据和以前所用的基因组规模代谢网络模型(GSMM,包含代谢物、基因和代谢中的生化反应,可以分析代谢,预测生长情况)结合,为这次研究中的每个样本建立了个体化的 GSMM。基于这个模型,研究人员可以研究肿瘤的代谢,分析不同的代谢条件下肿瘤的生长速度,发现增加生长速度的物质,找到产生它所需的酶,通过控制酶的编码基因来控制肿瘤的生长。最终,研究人员确定了 2553 种必需基因,可以抑制或杀死肿瘤,其中 55 个是在患者体内常见的。但是在这些必需基因中,绝大多数同时也影响着正常组织的代谢,当进行靶向测试时,正常的组织也受到了不小的伤害,这如果是在人体内,就会产生相应的副作用,因此这些必需基因对应的蛋白质不适合作为药物开发的靶点。
不过,研究人员也预测,参与癌细胞核苷酸代谢的 32 个基因被靶向时,对健康组织是没有太大毒副作用的,所以,它们倒是有可能成为潜在的治疗靶点。这个模型的建立和分析是患者进行个性化治疗的一个途径。
研究人员在一组非小细胞肺癌患者(357 人)和一组结肠癌患者(60 人)中验证了他们发现的预后基因是否“靠谱”。在肺癌患者中,他们确定的 100 个影响最大的预后基因与从 TCGA 数据库中得到的有高达 74% 的重叠。研究人员进一步从中选择了 8 个,对它们的表达进行了分析,结果显示它们的表达水平与预后结果确实显著相关。结肠癌患者中的实验也得到了类似结果,他们筛选出的 6 个基因的蛋白质表达水平也全部与预后相关。
Uhlén 教授表示:“这项研究与之前的类似研究不同,它不是将注意力集中在与癌症有关的突变上,而是所有的蛋白质编码基因的突变对下游的影响,我们首次展示了在大数据层面,基因表达水平的影响将如何改变医学研究。我们很高兴为全世界的癌症研究人员提供了免费开放获取的资源库,希望这有助于加快找到个性化癌症治疗所需的生物标志物。”[4]
参考资料:
[1] http://science.sciencemag.org/content/357/6352/eaan2507.full
[2] https://www.kth.se/en/bio/research/proteomics/proteomics-researchers/mathias-uhlen-1.67763
[3] Hjelm B, Brennan D J, Zendehrokh N, et al. High nuclear RBM3 expression is associated with an improved prognosis in colorectal cancer[J]. PROTEOMICS-Clinical Applications, 2011, 5(11‐12): 624-635.
[4] https://www.sciencedaily.com/releases/2017/08/170817141728.htm
扫描上面二维码在移动端打开阅读