碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源。作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类构成了地球上结构最多样的蛋白质集合。碳水化合物活性酶数据库(CAZymes,http://www.cazy.org/)是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息。
Classify | 分类
| number |
Glycoside Hydrolases (GHs) | 糖苷水解酶类 (GHs) | 755496 |
GlycosylTransferases (GTs) | 糖苷转移酶类 (GTs) | 644869 |
Polysaccharide Lyases (PLs) | 多糖裂解酶类 (PLs) | 23725 |
Carbohydrate Esterases (CEs) | 糖水化合物酯酶类 (CEs) | 77255 |
Auxiliary Activities (AAs) | 辅助模块酶类 (AAs) | 13880 |
Carbohydrate-Binding Modules (CBMs) | 碳水化合物结合模块 (CBMs) | 203729 |
Type | number |
Bacteria | 15626 |
| 405 |
| 357 |
| 271 |
数据库注释
dbCAN是一个用于注释碳水化合物活性相关酶的在线服务器和数据库,其基于保守结构域数据库(CDD)搜索和文献精选,为每个CAZymes家族明确定义了一个标签结构域并为此结构域构建隐马尔科夫模型(HMM)。其数据来源主包括CAZy数据库和CAT,并随着CAZy的更新而更新。dbCAN可以进行在线注释,也可以下载本地数据库,本地数据库使用的是HMMs模型数据库,结合hmmer软件进行本地注释。dbCAN注释基本流程
1、序列提交
打开在线注释平台dbCAN(http://bcb.unl.edu/dbCAN2/),选择Annotate->填写邮箱->勾选注释工具->输入或选择序列->Submit。
注意:默认情况下,已选中HMMER,DIAMOND和Hotpep,而未选中CGC-Finder。仅选择HMMER将具有与原始dbCAN服务器相同的结果。选择CGC-Finder将显示基因位置文件上传按钮,您必须上传基因位置文件(如上图右,或者上传GFF或BED格式文件),以使CGC-Finder预测CAZyme基因簇(CGC)。
2、注释结果展示
该数据库对每条CAZymes序列存在的所有类别的标签结构域进行了详细的起始位置注释及图片展示。点击Gene ID,例如prot_00088,得到该蛋白的结构域注释结果。
1、数据库和软件下载
http://bcb.unl.edu/dbCAN2/download/Tools/run_dbcan_v3.tar.gz
http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam.subfam.ec.txt
http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam-activities.txt
软件
HMMER3:
http://www.hmmer.org/download.html
Anaconda3:
https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh
2、安装
sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3
export PATH=$HOME/anaconda3/bin:$PATH
HMMER3的安装
conda install -c bioconda hmmer=3.0
3、数据库使用
Hmmpress dbCAN-HMMdb-V8.txt
数据库使用
hmmscan --domtblout xx.out.dm -o xx.out $HOME/dbCAN-HMMdb-V8.txt xx.fa
sh $HOME/hmmscan-parser.sh xx.out.dm > xx.out.dm.ps
-o <f> 将结果输出到指定的文件中。默认是输出到标准输出。--tblout <f> 将蛋白质序列的结果以表格形式输出到指定的文件中。默认不输出该文件。--domtblout <f> 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。--pfamtblout <f> 输出pfam格式的表格和结构域结果。--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。-E <x> 设定E_value阈值,推荐设置为1e-5。default:10.0。--domE <x> 设定E_value阈值。该参数和-E 参数类似,不过是domain 比对设定的值。default:10.0。 --domT <x> 设定Score阈值。该参数和-T 参数类似,不过是domain 的score值。
输出结果
1. dbCAN2: a meta server for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2018.2. dbCAN: a web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2012.3. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Research, 2009.