生物信息学练习2- Biom-format
The Biological Observation Matrix (BIOM) format http://biom-format.org/
biom-format有两种方式安装:
1. python pkg:
pip install numpy
由于最新版的biom-format还不支持python3,所以需要切换到python2
sudo update-alternatives --config python
然后安装
pip install biom-format
为了处理BIOM 2.0+的文件,需要安装这个:
pip install h5py
2. R pkg:
百度,找安装包,安装好依赖即可。
版本:
版本1.0基于JSON格式开发。
版本2.0和2.1基于HDF格式开发。(HDF格式专门存储大规模、多对象的科学研究数据)
开发目的:
1. 存储和操作大规模的稀疏的生物数据列联表(列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表,其实就是通常的统计表格);
2. 将核心元数据(contingency table data and sample/observation metadata)封装到单个文件中;
3. 便于在不同工具见交流(如 QIIME/MG-RAST/VAMPS)。
支持 BIOM格式的软件:
QIIME,MG-RAST,PICRUSt,Mothur,phyloseq,MEGAN,VAMPS,metagenomeSeq,
Phinch,RDP Classifier
OTU table:
两种都支持,但>=85%的是0再用sparse更合适。
dense
sparse
***************************************************************************************************************************************
操作
Parse
a table from an open file object:
from biom import parse_table
with open('path/to/table.biom') as f:
table = parse_table(f)
Parse a table from a path:
from biom import load_table
table = load_table('path/to/table.biom')