12种主要癌症类型的突变景观和意义

  三个TCGA基因组测序中心(GSC; Baylor人类基因组中心 ,Broad Institute和Washington University的基因组研究所)共同对数千个肿瘤样品进行了外显子组测序 ,并匹配正常组织,后者被用作控制,以将体细胞突变与遗传变体区分开。这些对照通常是外周血 ,但是在199 AML样品和1个颊源中使用了皮肤组织,并将相邻的无肿瘤组织用于927例,其中120例来自血液和邻近固体正常组织的正常DNA 。   GSC之间以及在同一GSC的同类群体之间可能有所不同 ,因为捕获技术和测序平台会随着时间的流逝而继续发展 。因此,对于大多数变异意义分析,为每个样品收集测序覆盖数据至关重要。GSC之间的体细胞变体调用方法也有所不同 ,除了可以调整过滤策略以强调呼叫的灵敏度或特异性的事实。最后,TCGA疾病分析工作组(AWG)可以选择对变体呼叫进行手动策划,其中删除了误报并恢复了真正的负面因素 。AWG和GSC还合作选择了推定的变体 ,用于验证或从外显子测序的第一个通过中报告低覆盖范围的区域中恢复变体。这些步骤意味着,在给定的TCGA肿瘤类型的样品中,体细胞的敏感性和特异性大多是可比性的 ,但是它们之间的肿瘤类型有很大差异 ,这对Pan-Cantcancer分析造成了重大挑战。   无法达到敏感性的完全标准化,因为它需要在所有肿瘤 - 正常对上进行均匀的变体调用和过滤工作流程 。取而代之的是,来自TCGA的突变注释格式(MAF)文件的公开可用的体细胞呼叫既可以确保可重复性 ,又利用了多年来该疾病专家或基因组序列分析和注释中的专家多年来进行的大量手动策划。具体而言,所有MAF文件均从TCGA数据协调中心下载,每个中心都被重新处理以消除DBSNP数据库中存在的已知的 ,经常性的假阳性和种系单核苷酸多态性(SNP)。将所有变体坐标转移到GRCH37中,并使用从Ensembl版本69导入的Gencode人成绩单注释进行重新注册 。每个样品使用与BAMS相关的假发形式的参考文件或通过直接处理原始BAM文件来获得每个基因覆盖值。在出处和文档(https://www.synapse.org/#!synapse:syn1729383)中跟踪有关Synapse的详细信息。   我们通过将验证的体细胞变体的数量除以具有足够覆盖范围的碱基对数来计算突变频率 。对于正常和肿瘤BAM的最小覆盖范围分别为六个和八个读数。对于突变频谱,我们将突变按六种类型(过渡/横向)分类。突变环境是通过计算2 bp 5'和3'的A ,T,C和G核苷酸的频率与六个突变类别中每个变体的 。对于聚类,我们汇总了每种癌症类型的所有样品(不包括具有> 500个突变的高压剂) 。我们计算了每个突变类别中每个体细胞变体的突变环境(-2至+2 bp)。然后 ,使用所有癌症类型的突变环境的成对相关性进行分层聚类。我们在癌症(音乐)包中的突变显着性中使用了相关模块来鉴定具有与肿瘤样品中突变数正相关的突变的基因 。该分析均针对所有12种癌症类型进行。分析中仅包括至少5%的肿瘤中突变的基因。还包括补充表13,其中包括已知参与DNA不匹配修复的基因列表 。   我们使用Music Suite3中的SMG测试来鉴定每种肿瘤类型以及泛癌肿瘤的重要基因。该测试将突变分配为七个类别:在过渡,转移 ,CG过渡 ,CG转移,CPG转换,CPG转移和Indel ,然后使用基于卷积,超测量分布(Fisher的测试)和可能性的统计方法,并可能结合特定于特异性的双元素p值 ,以将其结合起来。使用先前描述的方法将所有P值组合在一起3 。SMG在图2中列出。最后,对于SMG的分析,如果在单个肿瘤类型或/和/和/和/和Pan-Cancer肿瘤样品中通常不表达的基因 ,如果它们的平均读数为每万群平均每百万(RPKM)≤0.5。对于基于RNA的基因表达分析(RNA-SEQ),我们使用了Synapse(https://wwwww.synapse.org/#!Synapse:syn1734155)的“ pancan12/sample log2-rsem”矩阵 。如果至少有70%的样本中有至少三个读数,则具有“表达 ”的基因。还进行了基于注释的策划。   为了对单个基因相关的癌症类型的数量进行定量推断 ,我们计算了每种癌症(组织)类型的频率的经验分布,并宣布相关性(设置指标变量为1),如果类型内的给定基因频率超过阈值 。否则 ,我们将指标设置为0 ,表示没有关联 。我们将阈值作为标准化的z得分为0.2,高于平均值,基于每种癌症类型的变异系数量化的127个重要基因中估计的噪声水平。然后 ,我们在指标变量上计算了总体分布。然后,根据指标分布的描述性统计(平均值和标准偏差),将具有至少五个基因的每个功能类别的平均值转换为z评分 。   收集了3,281个肿瘤的127个SMG的体细胞突变和小插入。为了减少乘客突变的噪声 ,从该分析中排除了具有500多个体细胞突变(被认为是高压器)的肿瘤。还排除了检测到零的体细胞突变的肿瘤,导致2,611个肿瘤的突变用于下游聚类分析 。构建了突变状态矩阵(样品×基因),并传递到R函数“ Hclust ”以进行完整链接层次聚类 ,并绘制了带有树状图的相应热图。来自BLCA,HNSC,LUAD和LUSC的肿瘤在很大程度上散布在Pan-Cancer队列上 ,表明这些疾病中广泛的异质性。例如,由于其KRAS突变,八个LUAD和两个LUSC肿瘤在固体结肠簇中(图4) 。三个UCEC ,两个GBM ,一个OV和一个HSNC样品由TP53和PIK3CA突变提供。通过合并拷贝数数据,结构变异,基因表达 ,蛋白质组学和甲基化,可以改善该分析的分辨率。   我们使用Fisher的精确测试来识别具有显着(Benjamini – Hochberg的FDR = 0.05)的SMG对,并共同出现 。我们通过一起分析所有样品并分别分析每种癌症类型的样品来确定重要的对。仅考虑Pan-Cancer数据集(扩展数据图4) ,仅确定了大量具有显着同时突变突变的显着同时突变的对(142);这些对包括几个候选基因(例如,NAV3,RPL22和TSHZ3) ,其在致癌作用中的功能没有很好地表征。   我们应用了从头驱动器的排他性(Dendrix)算法来识别所有样品上大约相互排斥的突变集 。Dendrix找到了最大重量W(M)的基因的一组M,其中W(M)是M中突变的样品数量与M Markov Chain Monte Carlo方法的最大评分基因的最大评分基因 。我们首先应用了Dendrix,仅考虑127个SMG ,然后扩展了分析,以考虑在三个Q值(卷积,Fisher的合并测试和可能性比率)中报告的1,000个最小Q值的基因。从这1,000个基因中 ,我们用癌症类型丢弃了突变密切相关的突变(Bonferroni通过精确测试校正了p≤0.05) ,这导致了600个基因进行树突分析。   我们还应用了Dendrix,以分别识别每种癌症类型中SMG中的一组独家突变集 。使用Fisher的精确测试评估了不同突变集之间的排他性和共发生,并且突变状态(如果集合中的至少一个基因被突变为“突变” ,则“不突变”,否则为2×2偶性表的类别。   我们使用音乐的临床相关模块来检查临床特征与单个肿瘤类型中的体细胞事件的相关性。Fisher的精确测试用于分析分类特征,Wilcoxon秩和测试用于定量变量 。我们使用标准的COX比例危害模型以及单个癌症类型以及跨癌的生存分析 ,如R软件包“生存 ”(http://cran.r-project.org/web/web/packages/survival/)实现。在这里,随着时间的流逝,所有突变的效果都被认为是恒定的 ,也就是说,它们是“固定系数”。超过1的危险比表示癌症的总体有害作用,而低于1的危险效应会更好 。计算仅包括至少两种癌症类型(用于Pan-Canter)中的突变频率至少为2%的突变频率的基因。实际上 ,这意味着尽管某些基因包含许多类型,例如,TP53在12种类型上计算出来 ,但大多数基于少数类型(扩展数据表1和补充表10a ,b)。尽管仅在所有癌症类型中至少有2%的基因计算单型分析的基因,但没有单独的分析的基因计算基因的基因没有基础 。使用年龄和性别作为协变量进行分析。   我们还通过对COX回归模型中的癌症类型进行分层来进行泛伴生存分析,并发现结果在很大程度上与将癌症类型作为协变量相一致(在这两个分析中 ,有14个重要的重要基因中有14个重叠)(补充表10b)。此外,阶段被用作单个癌症类型生存分析的协变量(不包括AML和COAD/READ) 。同样,结果与协变量相当一致(例如 ,在UCEC的这两个分析中重叠的15个重要基因中的12个)(补充表14) 。   我们使用TCGA靶向验证数据或/和外显子组和RNA测序数据计算了SMG中体细胞突变的VAF,BRCA和UCEC。一种名为BAM2ReadCount(未发表)的内部开发的工具,该工具计算了支持参考和变体等位基因的读取数 ,用于计算vafs用于点突变,而副本号中性段中的short Indels。在下游分析中,只有具有至少五个数据点的具有≥20×覆盖率和SMG的突变位点 。置换和t检验用于鉴定VAF明显更高或更低的基因(补充表11a ,b)。这些表明肿瘤发生过程中体细胞事件的时间顺序表达。类似地计算出未鉴定为显着突变的基因突变的VAF,以产生对照VAF密度分布 。We also computed VAF distribution for the other nine cancer types, and plots are included in Extended Data Fig. 7. In total, 91 BLCA, 772 BRCA, 144 COAD/READ, 62 GBM, 144 HNSC, 195 KIRC, 197 LAML, 216 LUAD, 146 LUSC, 278 OV and 248 UCEC tumours were used for SMG VAF distribution analysis.   我们使用AML,BRCA和UCEC的可用RNA测序数据进一步研究了体细胞突变的表达水平 ,然后根据DNA VAFS比较了观察到的突变等位基因表达式和预期水平(假设没有等位基因表达偏差)。该分析总共使用了671个BRCA ,170 AML和190个带有RNA-Seq BAM的UCEC肿瘤。值得注意的是,我们观察到3.9%,12.9%和5.9%的变异等位基因表达式增加了AML中SMG的突变的12.9%和5.9%(例如 ,TP53,Stag2和Smc3),BRCA(例如 ,CDH1,TP53,TP53 ,GATA3和MLL3和MLL3和MLL3和MLL3和MLL3)和UCEC(例如,cdh1,tp53 ,gata3)和ucec(例如,ARDA)和fgfrg2和fgfr2 anda and anda和fgfr2 。我们进一步比较了SMG和非SMG突变之间的表达水平分布。对于所有三种癌症类型,我们清楚地观察到在SMGs与非SMG中向较高表达的VAF转变 ,这在BRCA和UCEC中最为明显(扩展数据图8A)。该结果表明在肿瘤发生过程中可能选择这些突变 。   Sciclone(http://github.com/genome/sciclone)用于使用拷贝数中性段中的点突变生成突变簇。仅使用大于或等于100倍覆盖的变体用于聚类和绘图。验证数据用于AML ,外显子组测序数据用于BRCA和UCEC 。Sciclone自动突出了SMG,以显示其克隆关联(扩展数据图8B) 。

本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://m1.xianggongguan.cn/zixun/202506-1685.html

(26)
admin的头像admin签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • admin的头像
    admin 2025年06月21日

    我是象功馆的签约作者“admin”

  • admin
    admin 2025年06月21日

    本文概览:  三个TCGA基因组测序中心(GSC; Baylor人类基因组中心,Broad Institute和Washington University的基因组研究所)共同对数千个肿瘤...

  • admin
    用户062102 2025年06月21日

    文章不错《12种主要癌症类型的突变景观和意义》内容很有帮助

联系我们

邮件:象功馆@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信