基因组测序完后 是进行基因注释还是基因组注释
基因组注释分析主要包括哪些内容基因组注释包括以下方面的内容:(1)重复序列的预测。
通过比对已知的重复序列数据库,找出序列中包含的重复序列,识别类型并转化为N或者X,统计各种类型重复序列的分布。
(2)编码基因的预测。
通过将转录组或EST数据比对到拼接后的基因组序列上,找出编码基因位置,预测编码基因结构。
或者通过专业的外显子预测软件,预测编码基因的外显子结构。
(3)小RNA基因的预测。
通过比对已知的小RNA的数据库,或者通过生物信息(bioinformation)学软件预测,找出这些小RNA基因,并进行分类。
(4)调控序列和假基因的预测。
基因功能的注释,使用的数据库包括NT/NR,SwissProt/TrEMbl,InterPro,KEGG,COG,Geneontology等,使用比对的方法,如blast,找出同源相近的基因,并注释功能。
如何根据基因组注释信息获取circrna序列
基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。
我们将分别对这四个领域进行阐述。
1:重复序列的识别。
重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。
其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。
常见的反转录转座子类别有LTR,LINE和SINE等。
重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。
序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。
常用Repbase重复序列数据库。
从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。
从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。
常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。
重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。
一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。
为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。
另一方面,我们利用Repeatmasker识别与已知重复序列相似的重复序列或蛋白质序列。
通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。
重复序列识别的关键技术难点:1):第二代测序技术测基因组,有成本低、速度快等优点。
但是由于目前产生的读长(reads)较短。
由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。
2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads(unassembled reads)。
有必要同时分析未组装reads以得到更为完整的重复序列分布图。
之前,华大已开发了ReAS软件,专门用于识别未组装reads中的重复序列。
但该软件目前只能处理传统测序技术(如sanger测序)生成的较长片段的reads,需要进一步改进方可用于分析第二代测序技术得到的reads。
同时,未组装的短片段reads重复度更高,识别其重复区域具有较大难度。
重复序列识别的研究方向:1):整合现有的重复序列预测方法,对组装好的基因组序列进行分析。
2):综合考虑并结合短序列组装策略,校正重复序列识别的结果。
3):开发识别未组装reads重复序列的算法和流程并构建一致性序列。
2:非编码RNA序列的预测。
非编码RNA预测的研究背景和意义:非编码RNA,指的是不被翻译成蛋白质的RNA,如tRNA, rRNA等,这些RNA不被翻译成蛋白质,但是具有重要的生物学功能。
miRNA结合其靶向基因的mRNA序列结合,将mRNA降解或抑制其翻译成蛋白质,具有沉默基因的功能。
tRNA (转运RNA)携带氨基酸进入核糖体,使之在mRNA指导下合成蛋白质。
rRNA(核糖体RNA)与蛋白质结合形成核糖体,其功能是作为mRNA的支架,提供mRNA翻译成蛋白质的场所。
snRNA(小核RNA)主要参与RNA前体的加工过程,是RNA剪切体的主要成分。
非编码RNA预测的发展现状:由于ncRNA种类繁多,特征各异,缺少编码蛋白质的基因所具有的典型特征,现有的ncRNA预测软件一般专注于搜索单一种类的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。
Sanger实验室开发了Infernal软件,建立了1600多个RNA家族,并对每个家族建立了一致性二级结构和协方差模型,形成了Rfam数据库。
采用Rfam数据库中的每个RNA的协方差模型,结合Infernal软件可以预测出已有RNA家族的新成员。
Rfam/Infernal方法应用广泛,可以预测各种RNA家族成员,但是特异性较差。
我们建议:如果有更好的专门预测某一类非编码RNA的软件,那么采用该软件进行预测;否则,使用Rfam/Infernal流程。
非编码RNA预测的研究内容:利用Rfam家族的协方差模型,我们采用Rfam自带的Infernal软件预测miRNA和snRNA序列。
由于rRNA的保守性很强,为此我们用序列比对已知的rRNA序列,识别基因组中的rRNA序列。
tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。
非编码RNA预测中拟解决的关键技术难点:识别非编码RNA的假基因:基因组中很多序列由非编码RNA基因复制而来,与非编码RNA基因序列相似,但不具有非编码RNA的功能。
目前我们采用的非编码RNA序列的预测方法都是基于序列比对和结构...
求助:病毒全基因组注释,分析,及可视化
HBV基因组又称为HBVDNA,其结构独特而精密,由不完全的环状双链DNA组成,长的为负链,短的为正链。
负链含3200个碱基,正链的长度可变。
HBV基因组中4个开放读码框(ORF)均位于负链,分别为S区、C区、P区、X区。
S区又分为前S1、前S2及S三个编码区,分别编码包膜上的前S1蛋白、前S2蛋白及HBsAg。
前S蛋白有很强的免疫原性,HBV的嗜肝性主要由前S蛋白与肝细胞受体之间的识别和介导的。
C区又分为前C基因和 C基因,编码HBeAg和HBcAg。
从前C基因开始编码的蛋白质经加工后分泌到细胞外即为HBeAg;从C基因开始编码的蛋白质为HBcAg。
P区是最长的读码框架,编码一个大分子碱性多肽,分子量约为90KD,含有多种功能蛋白。
X基因编码X蛋白,即HBxAg。
HBxAg具有反式激活作用,可激活HBV本身的、其他病毒的或细胞的多种调控基因,促进HBV或其他病毒(如艾滋病病毒)的复制。
...
v肆零扒扒酒吧宜零宜