Python 条件表达式

问题:获得目录中的 .fna 后缀的文件路径

  • 通过 makeblastdb 能获得用于 BLAST 的数据库文件,这些文件包括原始数据 .fna,和几个在原名基础上增加后缀为名字的文件,例如 .fna.nsq
  • Blast 的时候需要指定的是 .fna文件,而不是其他的那些。因此需要自动读取数据库文件夹中的不带后缀的文件。
  • 如果做的是蛋白质的数据库,需要的是 .faa 的文件。

解决

  • 直接用 in 不能筛选出 .fna结尾 的名字。需要使用正则表达式。
import os
import re
mask = re.compile('.+fna$') # $说明从后开始匹配

# 最好先看一下当前路径是什么
os. getcwd()

# 获得文件夹里面所以文件名
file_names= os.listdir()

# 或者随便用个例子
file_names = ['1.fna', '1.fna.nsq', '1.fna.nsi',]

# 方法1 for循环,遍历每个文件名,返回fna结尾的文件(事先知道只有一个)

for db in file_names:
    if mask.match(db):
        path = db
path

# 方法2 方法1用条件表达式写出来
path = [db for db in file_names if mask.match(db)] # 注意[ ]不能少
path

# 方法3 filter 函数
path = list(filter(mask.match, file_names))[0]
path


# 以上三个path都会是1.fna
# 把这个和当前的目录组合起来就是数据库所在的路径
print(os.path.join(os.getcwd(),path))

说明

搜问题的时候看到了第二种写法,觉得挺有趣的,就稍微看了下。

如何理解conditional expression

a, b, c = 1, 2, 3

# 1.常规

if a>b:
    c = a
else:
    c = b

# 2.表达式
c = a if a>b else b # 先执行中间的if,如果返回True,就是左边,False是右边。

# 3.二维列表
c = [b,a][a>b] #实际是[b,a][False],因为False被转换为0,所以是[1,2][0],也就是[1]
                      # False返回第一个,True 返回第一个。

# 4
c = (a>b and [a] or [b])[0]
# 这个比较好玩,False and [1] or [2],因为and的优先级高于or,先算and
# False和[1] and之后还是False,和[2]or之后却成了[2]
# True 和[1] and之后是[1],[1]和[2]or结果是[1]
# 也就是False和True在和别人做boolean运算的时候,根据and还是or,F和T在前在后有不一样的数据转换规则。

参考

Python关于条件表达式的说明 PEP308

posted @ 2017-12-11 17:43  Xeonilian  阅读(12635)  评论(1编辑  收藏  举报