PHI 数据库简介
PHI是一个致病菌的数据库,截止到2017年8月1号为止,最新的版本是4.3,数据库中收录了实验验证过的致病菌的信息,其中有176个来自动物的致病菌,227个来自植物的致病菌,3个来自真菌的致病菌;
4.3版本中数据库的具体信息如下:
共收录了4775个基因, 相互作用有8610条, 致病菌有264种, 宿主有173种,疾病有428种,References 参考文献有2330种
数据库网址如下:
http://www.phi-base.org/index.jsp
在数据库的记录中,包含以下几个比较常用的字段的信息:
GENE NAME : 基因名称
HOSE SPECIES : 宿主的物种名称
PATHOGEN SPECIES : 致病菌的名称
DISEASE NAME : 疾病名称
PHI-BASE ACCESSIONID : phi-base 数据库的编号
PHENOTYPE MUTANT : 致病菌导致的表型变化
EXPERIMENTAL EVIDENCE : 实验证据
MULTIPLE MUTATION :
以基因 AcpC 为例,进行检索
在输入框中输入基因名称,点击SEARCH 按钮,检索出来的结果如下:
图片左侧的输入框提供了不同的筛选项,可以根据Year等因素对结果进行进一步筛选,右侧的表格是检索出的最终结果
phi-base 是可以免费下载的,首先需要注册一个账号,点击Download 按钮会提示注册账号,注册的过程就不详细写了,注册完成之后就可以看到下载链接:
phi-base 提供了两种下载方式:
第一种:下载fasta格式的序列,可以方便的用构建本地版的blast数据库,对基因进行功能注释
第二种:csv格式的整个数据库,这种下载方式得到的信息更加全面
下载到的fasta部分内容如下:
>A0A023H5D8#PHI:6442#EepR#615#Serratia_marcescens#reduced_virulence MDNNHQKFDSQSIANRVRELFLHYGIGKRQHARELSRILDLSFSHAHRKLKGQSPWTLEQINSVAAALGETPAAIADLSAEHETTEPNMARDAIFFVAGVAMPCVGHIGDELPAGRPAEFVALRVEGQWHIYRADEAPAGPRYGV >A0A023NA98#PHI:3354#rtxA1#672#Vibrio_vulnificus#reduced_virulence MGKPFWRSVEYFFTGNYSADDGNNSIVAIGFGGEIHAYGGDDHVTVGSIGAKVYTGSGNDTVVGGSAYLRVEDTTGHLSVKGAAGYADINKSGDGNVSFAGAAGGVSIDHLGNHGDVNYGGAAAYNGITRKGLSGNVTFKGAGGY
可以看到为蛋白质序列,可以通过blastp对基因进行致病性的功能注释
csv格式如下:
csv文件为整个数据库的所有记录,包含的字段很多,比较重要的还是之前的几个字段;
参考资料 : https://www.ncbi.nlm.nih.gov/pubmed/16381911