快递查询
测试调用测试设计Survival生存曲线绘制软件环境微生物多样性软件转录组分析软件转录组软件购买重测序软件环境微生物多样性软件(1)桌面软件中药空间代谢组学检测中药非靶代谢组检测中药入血/入靶成分分析中药成分鉴定检测中药组学ATAC-seqCHIP-seqHi-C测序基因调控OmicsBeanMicrobe Trakr(微生物基因组鉴定分析工具)网页分析系统WEB分析系统澳洲血清 BovineBD科研管KAPAQIAGENThermoFisherMVE液氮罐4titude® 样品管标记系统Hi-C建库试剂盒及基因组组装软件无血清细胞冻存液Cell Freezing Medium纳米流式检测仪lexogen支原体检测试剂盒仪器试剂耗材数据库开发数据中心TCGA生存数据包功能医学报告系统开发PlantArray植物生理组平台特色服务单细胞测序空间代谢组DSP空间蛋白质组Visium空间转录组测序空间多组学类器官基因芯片染色体级别基因组组装Hi-C建库叶绿体、线粒体基因组测序一代测序动植物基因组de novo测序细菌基因组测序真菌基因组测序病毒基因组测序简化基因组遗传图谱测序简化基因组GWAS测序基因组重测序表观组基因分型外显子捕获目标区域捕获简化基因组遗传图谱性状定位扫描图DNA中5-hmC图谱测定全基因组甲基化测序真菌基因组扫描图测序epiGBS-简化甲基化BSA混池测序基因组SSR开发基因组(DNA)UMI-RNAseq转录组测序真核有参转录组测序真核无参转录组测序原核链特异性转录组测序全转录组测序 降解组表达谱芯片circRNA芯片circRNA测序Small RNA测序Lnc RNA测序m6A甲基化测序互作转录组测序UMI-RNAseq转录组(RNA)16S扩增子全长测序Meta-Barcoding(eDNA)技术研究微生物多样性测序宏基因组测序宏基因组Binning分析宏基因组抗性基因测序HiC-Meta宏基因组宏转录组差异表达测序宏病毒组测序环境DNAHiFi-Meta宏基因组肠道菌群临床检测基于肠道菌群检测和移植的肠道微生态学科建设宏基因组元素循环测序微生物组蛋白组代谢组抗体芯片Raybiotech芯片蛋白芯片蛋白芯片4D蛋白质组Raybiotech芯片OLINK精准蛋白质组学解决方案常规定量蛋白质组蛋白质组定性分析靶向蛋白质组学修饰蛋白质组学非靶向代谢组学靶向代谢组学脂质组学蛋白和代谢组GC-MS全代谢组LC-MS全代谢组靶向代谢组脂质组学代谢组学分子生物学CRISPR基因编辑细胞定制细胞株构建iPS构建CRISPR/Cas9DNA甲基化修饰细胞FAQ基因编辑切片图像扫描组织芯片免疫组化微量基因组建库专家病理切片数字存档多色免疫荧光病理形态学数据陪护扩增子时序分析基因突变体克隆动物中心小动物疾病模型构建和检测服务基因编辑小鼠动物实验支原体污染检测服务细胞系遗传背景鉴定细胞系鉴定外泌体全转录组测序外泌体分离与鉴定单外泌体蛋白质组学分析服务外泌体专题甲基化焦磷酸测序cfDNA甲基化测序DNA甲基化测序850K甲基化芯片935K甲基化芯片全基因组甲基化测序(WGBS)简化基因组甲基化测序 (RRBS)目标区域甲基化测序 (Targeted Bisulfite Sequencing)甲基化DNA免疫沉淀测序 (MeDIP-seq)氧化-重亚硫酸盐测序 (oxBS-seq)TET-重亚硫酸盐测序(TAB-seq)5hmC-Seal,超高灵敏度的羟甲基化检测羟甲基化免疫共沉淀测序 (hMeDIP-seq)DNA 6mA免疫沉淀测序 (6mA-IP Seq)甲基化专题RNA修饰研究专题免疫印迹(Western-blot)技术服务定量Western检测Simoa单分子免疫分析qPCRCNVSNPPGM测序PCR array数字PCR精准检测ATAC-SeqChIP-SeqRIP-Seq基因调控Ribo-seq核糖体印迹测序技术Active Ribo-seq活跃翻译组测序技术翻译组10x官方发布样本准备样本要求样本取材以及样本编号技巧精简版细胞库组织库动物模型蛋白组代谢组Hi-C单细胞与空间转录组单细胞悬液外泌体Raybiotech蛋白芯片Simoa样本准备样本准备要求表单留言板SaaS 帮助搜索Mac谷歌浏览器2019国自然基金查询生信相关工具集合数据分析项目信息单提交资料分享核酸抽提产品资料转录组软件教学视频微生物多样性软件教学视频Lexogen产品培训视频Olink精准蛋白组学专题项目进度个人中心会员登录会员注册购物车联系我们公众号手机商城公司愿景知识分享
当前位置

数据库|eggNOG在线注释以及本地化全攻略

COG是Clusters of Orthologous Groups of proteins的缩写(http://www.ncbi.nlm.nih.gov/COG/)。COG是在对已完成基因组测序的物种的蛋白质序列进行相互比较的基础上构建的,COG数据库选取的物种包括各个主要的系统进化谱系。每个COG家族至少由来自3个系统进化谱系的物种的蛋白所组成,所以一个COG对应于一个古老的保守结构域。构成每个COG的蛋白被假定来自于同一个祖先蛋白。进行COG数据库比对可以对预测蛋白进行功能注释、归类以及蛋白进化分析。

eggNOG数据库(http://eggnog5.embl.de/#/app/home)是NCBI的COG数据库的扩展,它收集了更全面的物种和更大量的蛋白序列数据。它同样进行了同源基因聚类分析和对每个同源基因类的描述和功能分类。其中搜集了5090个生物(真核生物、代表性细菌和古菌)和2502个病毒的全基因组蛋白序列。将这些物种分成了379类(taxonomic levels)。每类的编号以NCBI的分类编号表示。包含4.4M个同源基因类(orthologous groups/OGs)。

eggNOG更强大的功能在于:

1.对更全面的物种和更大量蛋白序列进行分类。相比于COG数据库纯人工且较为准确的分类,eggNOG数据库扩大物种和序列数据量,采用了非监督聚类方法进行计算。

2.对每个同源基因类进行了系统发育树构建、HMM模型构建、GO注释、KEGG Pathway注释、SMART/FPAM结构域注释、CAZyme注释等。

3.提供了本地化软件和网页工具进行eggNOG注释。

4.数据库内还包含KOG信息,其中原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

eggNOG数据库首页

eggNOG数据库分类和功能概述

COG功能分成四大类,信息存储和处理(information storage and processing)、细胞过程和信号(cellular processes and signaling)、代谢(metabolism) 和缺失的功能描述(poorly characterized)。

每一类对应的信息如下:

分类文件见:http://eggnogdb.embl.de/download/eggnog_4.5/COG_functional_categories.txt
OGs功能描述,功能分类和分类学水平如下:

文件参考:http://eggnogdb.embl.de/download/eggnog_5.0/e5.og_annotations.tsv

在线注释

eggNOG-mapper(http://eggnogdb.embl.de

/#/app/emapper是COG在线注释工具,可使用预先计算的eggNOG簇和系统发育树,根据快速的直系同源比对进行功能注释。

注意方法选择:diamond在序列少时相对较慢,但序列多时相对较快。HMMER方法对于亲源较远序列预测成功率更高,但数据量大时计算时间长,在线限制一次最多5000条序列。
点击Run按钮即提交任务。会出现如下窗口,出现任务状态,和引文列表页面。结果以邮件的形式发送,值得注意的是,如果用的人多,在线分析需要等待时间较长。


本地化配置

1

数据库和软件下载

数据库

软件下载:https://github.com/eggnogdb/eggnog-mapper/archive/1.0.3.tar.gz

eggnog数据库http://eggnogdb.embl.de/download/

下载如下文件:

http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog.db.gz

http://eggnogdb.embl.de/download/emapperdb-5.0.0/eggnog_proteins.dmnd.gz

软件

diamond:https://github.com/bbuchfink/diamond/

HMMER3:http://www.hmmer.org/download.html

Anaconda3:https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh

2

安装

Anaconda3安装
sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3
左右滑动查看

修改环境变量

export PATH=$HOME/anaconda3/bin:$PATH
左右滑动查看
eggnog-mapper的安装
conda install eggnog-mapper
左右滑动查看
数据库下载
download_eggnog_data.py
左右滑动查看
diamond的安装
conda install -c bioconda diamond
左右滑动查看
HMMER3的安装
conda install -c bioconda hmmer
左右滑动查看

3

数据库使用

emapper.py -i nuc.fa -o nuc -m diamond --cpu 64 --seed_ortholog_evalue 1e-5 --translate 核苷酸
emapper.py -i pep.fa -o pep -m diamond --cpu 64 --seed_ortholog_evalue 1e-5 --dmnd_db
eggnog_proteins.dmnd
左右滑动查看
#参数说明:

输出结果说明

pep.emapper.seed_orthologs比对结果列表:

#表格说明:

**列:输入基因id

第二列:eggNOG中的**蛋白质匹配

第三列:evalue

第四列:score值

pep.emapper.annotations 比对结果多数据库整理信息:

#表格说明:

query_name:输入基因id

seed_eggNOG_ortholog:eggNOG中的**蛋白质匹配

seed_ortholog_evalue:evalue

seed_ortholog_score:score值

predicted_gene_name:预测的基因名称

GO_terms:GO功能信息

KEGG_pathways:KEGG功能信息

Annotation_tax_scope:注释的物种范围

OGs:eggNOG直系同源群列表

bestOG|evalue|score:**匹配直系组(仅在HMM模式下)
COG cat:从**匹配OG推断出的COG功能类别

eggNOG annot:功能描述


参考文献

[1] Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper.Mol Biol Evol,2017.(https://doi.org/10.1093/molbev/msx148)

[2] eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Res, 2019.

(Doi: 10.1093/nar/gky1085)

文章分类: 数据库开发