scanpy计算n_genes_by_counts和total_counts等质量控制指标

利用scanpy的calculate_qc_metrics函数计算adata的obs中的质量控制指标（n_genes_by_counts,total_counts等参数指标）

⚠️注意：只是计算相关质量控制指标，并不会筛选/过滤数据。

类似代码：Dandelion库的ddl.pp.recipe_scanpy_qc(adata)似乎也能达到相同效果。

导入

需要用的包：scanpy和anndata
导入包和读取adata数据

 import anndata
import scanpy as sc
 
import pandas as pd
import numpy as np
 
 
adata=anndata.read(file_address)
print(adata)
print(adata.obs)

使用方法

计算质量控制指标n_genes_by_counts,total_counts等参数指标：log1p=False

 sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)
print(adata)
print(adata.obs)

如果需要log1p变换，即log1p_n_genes_by_counts和log1p_total_counts参数指标：log1p=True

 sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=True, inplace=True)
print(adata)
print(adata.obs)

如果需要计算线粒体基因的表达量，即total_counts_mt和pct_counts_mt参数指标：qc_vars=["mt"]
adata.var有个字段为"mt" 用于判断基因是否为线粒体基因，将会增加三个指标：

total_counts_mt : 细胞中线粒体基因表达量总和
log1p_total_counts_mt: log1p(细胞中线粒体基因表达量总和)
pct_counts_mt: 细胞中线粒体基因表达量总和占总基因表达和的百分比

 adata.var["mt"] = adata.var_names.str.startswith("MT-")
sc.pp.calculate_qc_metrics( adata, qc_vars=["mt"], percent_top=None, log1p=False, inplace=True)
print(adata)
print(adata.obs)

上一篇conda常用命令

下一篇torch.nn.Embedding的导入与导出

本文作者：kingwzun

本文链接：https://www.cnblogs.com/kingwz/p/18408829

posted @ 2024-09-11 19:48 kingwzun 阅读(275) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

kingwzun

scanpy计算n_genes_by_counts和total_counts等质量控制指标

导入

相关质量控制指标含义：

(1)obs

(2)var

使用方法

公告

我的标签

积分与排名

随笔分类

阅读排行榜

最新评论

	import anndata
	import scanpy as sc

	import pandas as pd
	import numpy as np


	adata=anndata.read(file_address)
	print(adata)
	print(adata.obs)

	sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)
	print(adata)
	print(adata.obs)

	adata.var["mt"] = adata.var_names.str.startswith("MT-")
	sc.pp.calculate_qc_metrics( adata, qc_vars=["mt"], percent_top=None, log1p=False, inplace=True)
	print(adata)
	print(adata.obs)