使用 python 遍历目录下的文件
看到邮件列表里面讨论遍历一个目录下的文件 最 pythonic 的做法。有点绕 但是确实简洁实用。效率也很高。收藏下。
分解下这神奇的一行代码吧
sum([[os.path.join(base,file) for file in files] for base,,files in os.walk(dir)],[])
这一句是两个嵌套的列表推倒,加上一个内置的sum函数得到了结果。sum在这里的用法不同于平常我们对sum的使用比较特殊。
列表推倒还是比较容易理解的。
首先外层的列表推倒 遍历出所有的 base 和 files, 这里的base是所有的路径,而files则是对应路径下的所有文件。
写成
In [16]: [(base, files) for base,,files in os.walk(dir)]
Out[16]:
[('/home/liwei/boxy',
['test.html',
'base.css',
'jquery-1.6.4.min.js',
'boxy.css',
'boxy.zip',
'jquery.boxy.js',
'clearboxy.css']),
('/home/liwei/boxy/images', ['iconclose.gif', 'poptbg.gif', 'btn.gif']),
('/home/liwei/boxy/bak', ['boxyorig.css', 'screen.css'])]
可以看的很清楚了。路径和对应的文件列表。
然后对第一步列表推到得到的结果。再进行一次列表推到,作用是合并得到的路径和文件名,变成一个完整的路径。
单独拿一行出来。
('/home/liwei/boxy/bak', ['boxyorig.css', 'screen.css'])
这里要做的就是,吧上面这一行,变成下面这样的两行。
'/home/liwei/boxy/bak/boxyorig.css',
'/home/liwei/boxy/bak/screen.css',
方法也很简单,遍历出来的结果直接join就可以了。使用的是 os.path.join 这个方法。这里遍历了 files 。
合并起来
In [17]: [[os.path.join(base,file) for file in files] for base,,files in os.walk(dir)]
Out[17]:
[['/home/liwei/boxy/test.html',
'/home/liwei/boxy/base.css',
'/home/liwei/boxy/jquery-1.6.4.min.js',
'/home/liwei/boxy/boxy.css',
'/home/liwei/boxy/boxy.zip',
'/home/liwei/boxy/jquery.boxy.js',
'/home/liwei/boxy/clearboxy.css'],
['/home/liwei/boxy/images/iconclose.gif',
'/home/liwei/boxy/images/poptbg.gif',
'/home/liwei/boxy/images/btn.gif'],
['/home/liwei/boxy/bak/boxy_orig.css', '/home/liwei/boxy/bak/screen.css']]
这一步得到了一个列表中嵌套列表的结构。
接下来轮到神奇的sum了。平常我们会用sum来计算一个列表的和例如
sum([1, 2, 3, 4])
10
这里的用法,简化了 实际上就是做了这么一件事情。
In [20]: sum([['a','b'],['c','d']],[])
Out[20]: ['a', 'b', 'c', 'd']
这里将一个二维的列表,拉平了。
sum本质上是把传给他的一个可迭代对象一个个的加起来,返回结果,我们知道列表也是可以相加的,得到的是一个新的列表,相当与是extend了原来的列表。sum可以接受第二个参数,它是一个可选参数,文档中介绍到,这个参数的作用是指定sum的起始元素,你可以设置成一个数值,一个列表,上面这个例子中,设置了一个空列表,相当与上面的代码执行了
[]+['a','b']+['c','d']
如果不给定起始的元素,那么sum默认会用一个int去加,这样就会报错了。int是不能和list相加的。
这个方法可以用于拉平一个列表。速度快,实用!