快递查询
测试调用测试设计Survival生存曲线绘制软件环境微生物多样性软件转录组分析软件转录组软件购买重测序软件环境微生物多样性软件(1)桌面软件中药空间代谢组学检测中药非靶代谢组检测中药入血/入靶成分分析中药成分鉴定检测中药组学ATAC-seqCHIP-seqHi-C测序基因调控OmicsBeanMicrobe Trakr(微生物基因组鉴定分析工具)网页分析系统WEB分析系统澳洲血清 BovineBD科研管KAPAQIAGENThermoFisherMVE液氮罐4titude® 样品管标记系统Hi-C建库试剂盒及基因组组装软件无血清细胞冻存液Cell Freezing Medium纳米流式检测仪lexogen支原体检测试剂盒仪器试剂耗材数据库开发数据中心TCGA生存数据包功能医学报告系统开发PlantArray植物生理组平台特色服务单细胞测序空间代谢组DSP空间蛋白质组Visium空间转录组测序空间多组学类器官基因芯片染色体级别基因组组装Hi-C建库叶绿体、线粒体基因组测序一代测序动植物基因组de novo测序细菌基因组测序真菌基因组测序病毒基因组测序简化基因组遗传图谱测序简化基因组GWAS测序基因组重测序表观组基因分型外显子捕获目标区域捕获简化基因组遗传图谱性状定位扫描图DNA中5-hmC图谱测定全基因组甲基化测序真菌基因组扫描图测序epiGBS-简化甲基化BSA混池测序基因组SSR开发基因组(DNA)UMI-RNAseq转录组测序真核有参转录组测序真核无参转录组测序原核链特异性转录组测序全转录组测序 降解组表达谱芯片circRNA芯片circRNA测序Small RNA测序Lnc RNA测序m6A甲基化测序互作转录组测序UMI-RNAseq转录组(RNA)16S扩增子全长测序Meta-Barcoding(eDNA)技术研究微生物多样性测序宏基因组测序宏基因组Binning分析宏基因组抗性基因测序HiC-Meta宏基因组宏转录组差异表达测序宏病毒组测序环境DNAHiFi-Meta宏基因组肠道菌群临床检测基于肠道菌群检测和移植的肠道微生态学科建设宏基因组元素循环测序微生物组蛋白组代谢组抗体芯片Raybiotech芯片蛋白芯片蛋白芯片ENGINE-生物标志物检测服务ENGINE-抗体特异性服务4D蛋白质组Raybiotech芯片OLINK精准蛋白质组学解决方案常规定量蛋白质组蛋白质组定性分析靶向蛋白质组学修饰蛋白质组学非靶向代谢组学靶向代谢组学脂质组学新一代代谢组学 NGM ProLenioBio无细胞蛋白表达系统蛋白和代谢组GC-MS全代谢组LC-MS全代谢组靶向代谢组脂质组学代谢组学反向色谱柱原理的DNA/RNA提取技术分子生物学CRISPR基因编辑细胞定制细胞株构建iPS构建CRISPR/Cas9DNA甲基化修饰细胞FAQ基因编辑切片图像扫描组织芯片免疫组化微量基因组建库专家病理切片数字存档多色免疫荧光组织透明化技术服务病理形态学数据陪护扩增子时序分析基因突变体克隆动物中心小动物疾病模型构建和检测服务基因编辑小鼠动物实验支原体污染检测服务细胞系遗传背景鉴定细胞系鉴定外泌体全转录组测序外泌体分离与鉴定单外泌体邻近编码技术单外泌体蛋白质组学分析服务外泌体专题甲基化焦磷酸测序cfDNA甲基化测序DNA甲基化测序850K甲基化芯片935K甲基化芯片全基因组甲基化测序(WGBS)简化基因组甲基化测序 (RRBS)目标区域甲基化测序 (Targeted Bisulfite Sequencing)甲基化DNA免疫沉淀测序 (MeDIP-seq)氧化-重亚硫酸盐测序 (oxBS-seq)TET-重亚硫酸盐测序(TAB-seq)5hmC-Seal,超高灵敏度的羟甲基化检测羟甲基化免疫共沉淀测序 (hMeDIP-seq)DNA 6mA免疫沉淀测序 (6mA-IP Seq)甲基化专题RNA修饰研究专题免疫印迹(Western-blot)技术服务定量Western检测Simoa单分子免疫分析qPCRCNVSNPPGM测序PCR array数字PCR精准检测ATAC-SeqChIP-SeqRIP-Seq基因调控Ribo-seq核糖体印迹测序技术Active Ribo-seq活跃翻译组测序技术翻译组10x官方发布样本准备样本要求样本取材以及样本编号技巧精简版细胞库组织库动物模型蛋白组代谢组Hi-C单细胞与空间转录组单细胞悬液外泌体Raybiotech蛋白芯片Simoa样本准备样本准备要求表单留言板SaaS 帮助搜索Mac谷歌浏览器2019国自然基金查询生信相关工具集合数据分析项目信息单提交资料分享核酸抽提产品资料转录组软件教学视频微生物多样性软件教学视频Lexogen产品培训视频Olink精准蛋白组学专题项目进度个人中心会员登录会员注册购物车联系我们公众号手机商城公司愿景知识分享
当前位置

数据库|CAZymes在线注释以及本地化全攻略

碳水化合物亦称糖类化合物,是自然界存在最多、分布最广的一类重要有机化合物,是一切生物体维持生命活动所需能量的主要来源。作用于各种糖复合物、寡糖和多糖等碳水化合物的酶类构成了地球上结构最多样的蛋白质集合。
碳水化合物活性酶数据库(CAZymeshttp://www.cazy.org/)是关于能够合成或者分解复杂碳水化合物和糖复合物的酶类的一个数据库资源,其基于蛋白质结构域中的氨基酸序列相似性,将碳水化合物活性酶类归入不同蛋白质家族。该数据库提供了碳化合物合成、代谢、转运等酶的分类和相关信息。

01

CAZy数据库概述

  • CAZy数据库目前包括如下六大类家族

Classify

分类

number

Glycoside Hydrolases

(GHs)

糖苷水解酶类

(GHs

755496

GlycosylTransferases

(GTs)

糖苷转移酶类

(GTs

644869

Polysaccharide Lyases

(PLs)

多糖裂解酶类

(PLs

23725

Carbohydrate Esterases

(CEs)

糖水化合物酯酶类

(CEs

77255

Auxiliary Activities

(AAs)

辅助模块酶类

(AAs

13880

Carbohydrate-Binding Modules

(CBMs)

碳水化合物结合模块

(CBMs

203729


  • CAZy数据库中目前已注释的基因组:

Type

number

Bacteria

15626

Viruses

405

Archaea

357

Eukaryota

271

数据库注释

dbCAN是一个用于注释碳水化合物活性相关酶的在线服务器和数据库,其基于保守结构域数据库(CDD)搜索和文献精选,为每个CAZymes家族明确定义了一个标签结构域并为此结构域构建隐马尔科夫模型(HMM)。其数据来源主包括CAZy数据库和CAT,并随着CAZy的更新而更新。dbCAN可以进行在线注释,也可以下载本地数据库,本地数据库使用的是HMMs模型数据库,结合hmmer软件进行本地注释。

dbCAN注释基本流程



02

在线注释

1序列提交

打开在线注释平台dbCANhttp://bcb.unl.edu/dbCAN2/),选择Annotate->填写邮箱->勾选注释工具->输入或选择序列->Submit

注意:默认情况下,已选中HMMERDIAMONDHotpep,而未选中CGC-Finder。仅选择HMMER将具有与原始dbCAN服务器相同的结果。选择CGC-Finder将显示基因位置文件上传按钮,您必须上传基因位置文件(如上图右,或者上传GFFBED格式文件),以使CGC-Finder预测CAZyme基因簇(CGC)。


2注释结果展示

该数据库对每条CAZymes序列存在的所有类别的标签结构域进行了详细的起始位置注释及图片展示。

点击Gene ID,例如prot_00088,得到该蛋白的结构域注释结果。


03

本地化配置

1数据库和软件下载

数据库

http://bcb.unl.edu/dbCAN2/download/Tools/run_dbcan_v3.tar.gz

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam.subfam.ec.txt

http://bcb.unl.edu/dbCAN2/download/Databases/CAZyDB.07312019.fam-activities.txt

软件

HMMER3

http://www.hmmer.org/download.html

Anaconda3

https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh



2安装

Anaconda3安装
sh Anaconda3-2019.10-Linux-x86_64.sh -b -p $HOME/anaconda3
左右滑动查看


修改环境变量
export PATH=$HOME/anaconda3/bin:$PATH
左右滑动查看


HMMER3的安装

conda install -c bioconda hmmer=3.0
左右滑动查看



3、数据库使用

数据库建索引
Hmmpress dbCAN-HMMdb-V8.txt
左右滑动查看

数据库使用

hmmscan --domtblout xx.out.dm -o xx.out $HOME/dbCAN-HMMdb-V8.txt xx.fa
sh $HOME/hmmscan-parser.sh xx.out.dm > xx.out.dm.ps
左右滑动查看


参数说明
-h 显示帮助信息
-o <f> 将结果输出到指定的文件中。默认是输出到标准输出。
--tblout <f> 将蛋白质序列的结果以表格形式输出到指定的文件中。默认不输出该文件。
--domtblout <f> 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。
--pfamtblout <f> 输出pfam格式的表格和结构域结果
--acc 在输出结果中包含蛋白结构域的编号。
--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。
-E <x> 设定E_value阈值,推荐设置为1e-5。default:10.0。
-T <x> 设定Score阈值。
--domE <x> 设定E_value阈值。该参数和-E 参数类似,不过是domain 比对设定的值。default:10.0   
--domT <x> 设定Score阈值。该参数和-T 参数类似,不过是domain 的score值。
--cpu 并行分析的CPU数目[默认全部]






输出结果

输出结果说明:

(1) Subject:数据库结构域编号
(2) Length:结构域比对长度
(3) Query:蛋白序列编号
(4) Length:蛋白序列比对长度
(5) E-value:比对的E
(6) S-start:结构域起始位置
(7) S-end:结构域终止位置
(8) Q-start:蛋白序列起始位置
(9) Q-end:蛋白序列终止位置
(10) Coverage:结构域覆盖度



参考文献

1. dbCAN2: a meta server for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2018.
2. dbCAN: a web resource for automated carbohydrate-active enzyme annotation. Nucleic Acids Research, 2012.

3. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Research, 2009.