gcta软件说明说 TCGA的数据用什么工具分析

未至科技魔方是一款大数据模型平台，是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台，其采用分布式文件系统对数据进行存储，支持海量数据的处理。采用多种的数据采集技术，支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具，支持流程化的模型配置。通过第三方插件技术，很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集，数据模型的搭建，数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程，平台主要包括数据采集部分，模型配置部分，模型执行部分及成果展示部分等。

请教关于TCGA数据的问题

Case列显示的是该文件里数据来自于多少cases。比如569，说明这个文件整合了所有569个cases的genotyping数据，有些数字为1的，说明这个文件里只有一个case的数据。

对于RNAseq后续的分析，如果要用软件比如limma，edgeR比较表达差异的基因，就用counts数据。如果你想自己做t-test，下载counts数据自己做normalization再进行比较也行，或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行

癌旁的数据也包含在这些cases里了，下载metadata就能看到每个sample的信息，你会发现有些是来自solid tissue normal，这些都是癌旁的数据

如何处理TCGA的数据

首先说下背景，我毕论有大量涉及到生存曲线分析。针对某个我们已挖掘到白血病中的差异基因，利用了TCGA上的临床数据。

需要的数据：TCGA上的临床数据。当你下下来时会发现有一大堆。这时需要你做的就是筛选你所需要的。你需要的有：目的基因的表达量、患者生存时间、患者生存/死亡状态。这里的目的基因可以是你前期差异基因分析/通路分析/临床分析等所得到的一个或几个基因，你需要在下一步生存分析中进一步验证其预后影响。

软件：SAS、Grapdprism、SPSS、R语言都可以用。但个人感觉SAS的算法更精准，Gradprism在画图上更漂亮且易操作。看你需求了。

检验算法：采用Kaplan-Meier (K-M) 生存分析法来计算生存时间及生存率，采用Log-rank检验比较生存差异，取P值小于0.05为有统计学意义。

具体操作原理：根据目的基因的表达量，将患者分为高表达组和低表达组。这里的分组方法，可以是根据平均值，也可以是中值。我查阅了大量文献，认为中值更合理。将分组后的两组患者数据导入软件，这里的软件可以是上所述的任意一种，而数据包括了患者生存时间、患者生存/死亡状态。注：表达量只用来分组，不用来画生存分析。

tcga数据库样本哪些是肿瘤哪些是正常

答案就在TCGAbarcode，样本标签描述了样本类型，是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode，有174个样本类似于这个：

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四个字段：11A和01B描述的就是样本类型，1-9是肿瘤，10-19是正常，20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看见数据中有5个是正常组织样本

百度贴吧帐号被封怎么办，说要在pc申请解封什么意思

楼主您好：

如果您的帐号是因做出了违反《贴吧协议》的事在某个贴吧被封，请耐心等待系统自动解封或者私信该吧吧主帮您解封。如情节严重，如参与爆吧之类的帐号被全吧封禁，则可能是永久封锁。如帐号无故被封请去“贴吧投诉吧”反馈，地址：http://tieba.baidu.com/tousu/new/。

如何快速掌握TCGA数据库

tcga工作组发的文章。

The Cancer Genome Atlas （TCGA，https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp）数据库。TCGA数据源大部分都是公开的。

目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal（http://www.cbioportal.org/public-portal/cgds_r.jsp），ICGC（http://dcc.icgc.org/download/current）和GenePattern（http://www.broadinstitute.org/cancer/software/genepattern/download/index）。

转载请注明出处51数据库 » gcta软件说明说 TCGA的数据用什么工具分析