未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。
请教关于TCGA数据的问题
Case列显示的是该文件里数据来自于多少cases。比如569,说明这个文件整合了所有569个cases的genotyping数据,有些数字为1的,说明这个文件里只有一个case的数据。
对于RNAseq后续的分析,如果要用软件比如limma,edgeR比较表达差异的基因,就用counts数据。如果你想自己做t-test,下载counts数据自己做normalization再进行比较也行,或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行
癌旁的数据也包含在这些cases里了,下载metadata就能看到每个sample的信息,你会发现有些是来自solid tissue normal,这些都是癌旁的数据
如何处理TCGA的数据
首先说下背景,我毕论有大量涉及到生存曲线分析。针对某个我们已挖掘到白血病中的差异基因,利用了TCGA上的临床数据。
需要的数据:TCGA上的临床数据。当你下下来时会发现有一大堆。这时需要你做的就是筛选你所需要的。你需要的有:目的基因的表达量、患者生存时间、患者生存/死亡状态。这里的目的基因可以是你前期差异基因分析/通路分析/临床分析等所得到的一个或几个基因,你需要在下一步生存分析中进一步验证其预后影响。
软件:SAS、Grapdprism、SPSS、R语言都可以用。但个人感觉SAS的算法更精准,Gradprism在画图上更漂亮且易操作。看你需求了。
检验算法:采用Kaplan-Meier (K-M) 生存分析法来计算生存时间及生存率,采用Log-rank检验比较生存差异,取P值小于0.05为有统计学意义。
具体操作原理:根据目的基因的表达量,将患者分为高表达组和低表达组。这里的分组方法,可以是根据平均值,也可以是中值。我查阅了大量文献,认为中值更合理。将分组后的两组患者数据导入软件,这里的软件可以是上所述的任意一种,而数据包括了患者生存时间、患者生存/死亡状态。注:表达量只用来分组,不用来画生存分析。
tcga数据库样本哪些是肿瘤哪些是正常
答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
可以看见数据中有5个是正常组织样本
百度贴吧帐号被封怎么办,说要在pc申请解封什么意思
楼主您好:
如果您的帐号是因做出了违反《贴吧协议》的事在某个贴吧被封,请耐心等待系统自动解封或者私信该吧吧主帮您解封。如情节严重,如参与爆吧之类的帐号被全吧封禁,则可能是永久封锁。如帐号无故被封请去“贴吧投诉吧”反馈,地址:http://tieba.baidu.com/tousu/new/。
如何快速掌握TCGA数据库
tcga工作组发的文章。
The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的。
目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/cancer/software/genepattern/download/index)。
转载请注明出处51数据库 » gcta软件说明说 TCGA的数据用什么工具分析