快递查询
测试调用测试设计Survival生存曲线绘制软件环境微生物多样性软件转录组分析软件转录组软件购买重测序软件环境微生物多样性软件(1)桌面软件ATAC-seqCHIP-seqHi-C测序基因调控OmicsBeanMicrobe Trakr(微生物基因组鉴定分析工具)网页分析系统WEB分析系统澳洲血清 BovineBD科研管KAPAQIAGENThermoFisherMVE液氮罐4titude® 样品管标记系统外泌体提取试剂盒(EIQ3)Hi-C建库试剂盒及基因组组装软件无血清细胞冻存液Cell Freezing Medium纳米流式检测仪lexogen支原体检测试剂盒仪器试剂耗材数据库开发数据中心TCGA生存数据包功能医学报告系统开发PlantArray植物生理组平台特色服务基因芯片染色体级别基因组组装Hi-C建库叶绿体、线粒体基因组测序一代测序动植物基因组de novo测序细菌基因组测序真菌基因组测序病毒基因组测序简化基因组遗传图谱测序简化基因组GWAS测序基因组重测序表观组基因分型外显子捕获目标区域捕获简化基因组遗传图谱性状定位扫描图DNA中5-hmC图谱测定全基因组甲基化测序真菌基因组扫描图测序epiGBS-简化甲基化BSA混池测序基因组SSR开发基因组(DNA)UMI-RNAseq转录组测序真核有参转录组测序真核无参转录组测序原核链特异性转录组测序全转录组测序表达谱芯片 降解组circRNA芯片circRNA测序Small RNA测序Lnc RNA测序m6A甲基化测序互作转录组测序UMI-RNAseq单细胞转录组测序转录组(RNA)16S扩增子全长测序Meta-Barcoding(eDNA)技术研究微生物多样性测序宏基因组测序宏基因组Binning分析宏基因组抗性基因测序HiC-Meta宏基因组宏转录组差异表达测序宏病毒组测序环境DNA微生物组蛋白组代谢组抗体芯片蛋白质组定量分析蛋白质组定性分析靶向蛋白质组学修饰蛋白质组学非靶向代谢组学靶向代谢组学脂质组学空间代谢组蛋白和代谢组GC-MS全代谢组LC-MS全代谢组靶向代谢组脂质组学代谢组学分子生物学CRISPR基因编辑细胞定制细胞株构建iPS构建CRISPR/Cas9DNA甲基化修饰细胞FAQ基因编辑切片图像扫描组织芯片免疫组化微量基因组建库专家病理切片数字存档病理形态学数据陪护扩增子时序分析基因突变体克隆动物中心小动物疾病模型构建和检测服务基因编辑小鼠动物实验支原体污染检测服务细胞系遗传背景鉴定细胞系鉴定外泌体全转录组测序外泌体分离与鉴定外泌体专题甲基化焦磷酸测序cfDNA甲基化测序DNA甲基化测序MethylationEPIC BEadChip(850k)甲基化芯片甲基化专题免疫印迹(Western-blot)技术服务定量Western检测Simoa单分子免疫分析qPCRCNVSNPPGM测序PCR array数字PCR精准检测ATAC-SeqChIP-SeqRIP-Seq基因调控10x官方发布样本准备样本要求细胞库组织库动物模型蛋白组代谢组Hi-C单细胞转录组单细胞悬液外泌体样本取材以及样本编号技巧精简版样本留言板SaaS 帮助搜索Mac谷歌浏览器2019国自然基金查询生信相关工具集合数据分析项目信息单提交资料分享转录组软件教学视频微生物多样性软件教学视频Lexogen产品培训视频个人中心会员登录会员注册购物车联系我们公众号手机商城公司愿景新闻资讯
TCGA生存数据包

做肿瘤研究的过程中,生存分是一个很常见的研究分析,研究者可以根据生存分析的结果判断某个因素,比如基因表达,对患者预后生存的影响。

TCGA这个肿瘤研究的宝库包含了多个肿瘤Cancer Types Index的生存数据,一直以来都是数据挖掘的宝库。

我们本次收集了大家广泛研究的基因集(GeneSet,分析这些基因在TCGA不同肿瘤类型中与病人生存期的关系。每个基因集分别进行基因表达与生存数据的Cox回归分析、KM生存分析、风险指数建模以及与病人多个临床因素的关等分析。

本分析花费6天6夜给大家带来丰富内容:

结果按照基因集和肿瘤类型组合分别存储为独立数据包,可供选择。另外也接受基因集私人定制。

两百多个与肿瘤相关的GeneSet分别在TCGA的33种肿瘤中进行分析,GeneSet使用的为GSEA的。


H: hallmark gene sets
(browse 50 gene sets)
We envision this collection as the starting point for your exploration of the MSigDB resource and GSEA. Hallmark gene sets summarize and represent specific well-defined biological states or processes and display coherent expression. These gene sets were generated by a computational methodology based on identifying gene set overlaps and retaining genes that display coordinate expression. The hallmarks reduce noise and redundancy and provide a better delineated biological space for GSEA. We refer to the original overlapping gene sets, from which a hallmark is derived, as its 'founder' sets. Hallmark gene set pages provide links to the corresponding founder sets for deeper follow up.

This collection is an initial release of 50 hallmarks which condense information from over 4,000 original overlapping gene sets from v4.0 MSigDB collections C1 through C6. We refer to the original gene sets as "founder" sets.

Hallmark gene set pages provide links to the corresponding founder sets for more in-depth exploration. In addition, hallmark gene set pages include links to microarray data that served for refining and validation of the hallmark signatures.

To cite your use of the collection, and for further information, please refer to Liberzon A, Birger C, Thorvaldsdóttir H, Ghandi M, Mesirov JP, Tamayo P. The Molecular Signatures Database (MSigDB) hallmark gene set collection. Cell Syst. 2015 Dec 23;1(6):417-425.


C6: oncogenic signatures
(browse 189 gene sets)

Gene sets represent signatures of cellular pathways which are often dis-regulated in cancer. The majority of signatures were generated directly from microarray data from NCBI GEO or from internal unpublished profiling experiments which involved perturbation of known cancer genes. In addition, a small number of oncogenic signatures were curated from scientific publications.

To cite your use of the collection, and for further information, please refer toEmerging landscape of oncogenic signatures across human cancers.Ciriello G et al. Nat Genet. (2013)Oncogenic pathway signatures in human cancers as a guide to targeted therapies.Bild AH et al. Nature. (2006)




3.png


ACC肾上腺皮质癌)为例,展示本次分析结果


参考文献:


1‍. A Multivariable Prediction Model for Pneumocystis jirovecii Pneumonia in Hematology Patients with Acute Respiratory Failure

2018 Dec 15;198(12):1519-1526. doi: 10.1164/rccm.201712-2452OC.

2‍. Plasma biomarkers of risk for death in a multicenter phase 3 trial with uniform transplant characteristics post–allogeneic HCT

2017 Jan 12;129(2):162-170. doi: 10.1182/blood-2016-08-735324. Epub 2016 Nov 8.

3‍. Deep learning for lung cancer prognostication: A retrospective multi-cohort radiomics study


2018 Nov 30;15(11):e1002711. doi: 10.1371/journal.pmed.1002711. eCollection 2018 Nov.

4‍. Weekly dose-dense chemotherapy in first-line epithelial ovarian, fallopian tube, or primary peritoneal carcinoma treatment (ICON8): primary progression free survival analysis results from a GCIG phase 3 randomised controlled trial


2019 Dec 7;394(10214):2084-2095. doi: 10.1016/S0140-6736(19)32259-7. Epub 2019 Nov 29.

5‍. First-line ceritinib versus platinum-based chemotherapy in advanced ALK-rearranged non-small-cell lung cancer (ASCEND-4): a randomised, open-label, phase 3 study


2017 Mar 4;389(10072):917-929. doi: 10.1016/S0140-6736(17)30123-X. Epub 2017 Jan 24.


   If you have questions or problems using the data   please   send them to yunbios . Also lets us know if you find   it's   useful   in your work.



ACC肾上腺皮质癌)为例,展示本次分析结果:

基因表达与生存期的Cox回归

Cox 比例风险回归模型。生存分析模型,即Kaplan-Meiersurvival estimate,是单变量分析(univariable analysis),在做单变量分析时,模型只描述了该单变量和生存之间的关系而忽略其他变量的影响。(为什么要考虑multi-variables?比如在比较两组病人拥有和不拥有某种基因型对生存率的影响,但是其中一组的患者年龄较大,所以生存率可能受到基因型/年龄的共同影响)

同时,Kaplan-Meier方法只能针对分类变量(治疗A vs 治疗B,男 vs 女),不能分析连续变量对生存造成的影响。

为了解决上述两种问题,Cox比例风险回归模型(Cox proportional hazards regression model)就被提了出来。


本分析首先进行单元的和多元的cox回归分析,找到与生存显著的基因,再拿显著的基因进行下游研究。

单元cox回归:

4.png

多元cox回归:

5.png

多元和单元cox回归表格:

6.png

生存概率

2.1 Kaplan-Meier survival estimate

7.png

2.2Log-Rank test 比较不同的生存曲线


在利用KM方法得到多条生存曲线后,只通过直接的观察来确定多条曲线之间是否具有显著性差异是不充分的。因此,log-rank test被广泛的用来比较两条或多条生存曲线。


1)log-rank test是一种非参数检验,因此对于生存概率的分布没有任何假设;

2)同时,log-rank test 的nullhypothesis(原假设)为两个曲线代表的两个组之间,在生存率上没有显著性差异。

3)log-rank test比较的是每个组中观察到的事件数,与在原假设为真的情况下,每个组期望的事件数。

4)log-rank test统计量类似于卡方检验(Chi-squaretest)的统计量


**部分的显著基因,分别画出km图(两种类型的km图,可根据喜好挑选):

8.png

9.png


临床信息的统计

该部分可得到感兴趣基因与病人临床信息(如转移、淋巴结等)的关系,为课题设计和后续实验的方向提供思路。


有两个主要的结果,一个是按照基因表达高低分组,比较两组病人的临床信息的差异(存放在ClinicCompare目录中),另一个是用热图的形式展示出基因表达与病人临床信息的关系(存放在ClinicHeatmap目录下)。

3.1 临床信息的差异检验:

显著的特征用黄色标出。

10.png

3.2 临床统计的热图:

上半部分为基因表达的分布,下半部分热图为病人的临床信息的分类。

11.png


风险指数模型建立

对于每个GeneSet,我们使用里面的基因建立生存期的预测模型,包含以下分析内容:

1)训练集与测试集

TCGA数据病人按照7:3随机分成训练集(training data)和测试集(testing data)。训练集用于预测模型的参数训练和相关基因集的选择,测试集用于检验训练集给出的参数和基因集的预测能力。整个建模分为以下几步:

1.只用训练集的数据,每个基因进行单元cox回归,初步筛选相关基因;       

2.所有单元cox显著的基因,进行1000LASSO运算,得到每个基因的出现频率,并排序;       

3.按照以上排序,递增构建基因集,每个基因集进行多元cox回归,求得每个基因的贡献度;       

4.获得**基因集合,再计算一次多元cox回归,确定每个基因的回归系数;       

5.以上回归系数计算每个病人的死亡风险指数;       

6.该死亡风险指数模型在训练集中测试(预测情况与实际情况比较);     

7.同一模型在起初独立出的测试集里面进行测试(预测情况与实际情况比较)。

2)、机器学习(Lasso)构建**多元COX模型

       在统计学和机器学习中,Lasso算法(英语:least absoluteshrinkage and selection operator,又译最小绝对值收敛和选择算子、套索算法)是一种同时进行特征选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性。Lasso是一种采用了L1正则化(L1-regularization)的线性回归方法,采用了L1正则会使得部分学习到的特征权值为0,从而达到稀疏化和选择变量、构建**模型的目的。        LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。因此,不论目标因变量(dependent/responsevaraible)是连续的(continuous),还是二元或者多元离散的(discrete),都可以用 LASSO 回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。

3)、基因panel的风险指数分析

       对上述得到的基因Panel,我们根据表达情况和多元回归系数,对每一个样本计算了风险指数(Risk Score)。公式如下:

a.gif

xi代表各个基因Panel中基因的表达量,βi为每个基因对应的多元COX回归beta值(multi_beta)。       

样本依据风险指数以中位数为界分为高指数组与低指数组,进行Kaplan-Meier生存分析,绘制生存曲线。       

同时基于风险指数,绘制了一年、三年、五年生存期的ROC曲线。

结果:

风险模型的系数:

b.png

训练集和测试集的ROC曲线评估模型准确性:

c.png

高低风险组的生存曲线比较:

d.png

病人的风险指数打分表:

e.png

以及高低风险组的临床信息统计,同上,存放在ClinicHeatmap\RiskModelClinicCompare\RiskModel中:

f.png