Windows资源管理器文件名排序

Windows资源管理器文件名排序

这学期担任了本科生教学助教，平时有逐个批改学生作业（作业通常按学生名字进行命名）然后记录成绩到另外一个文件的需求。为了加快批改作业的效率，考虑把作业文件夹里面的作业的文件名抽取出来，拷贝到成绩文件里面，这样当按照Windows资源管理器排的顺序批改完作业后，可以很快地把成绩加到作业文件名的后面（顺序是一致的，登记成绩时省了找作业对应的学生所在位置的时间）。

想法是美好的，现实是打脸的：通过Python遍历目录得到的文件名和Windows资源管理器中显示的文件名的顺序是不一样的，比如Python遍历目录得到文件名列表是['万xx.jpg', '何xx.jpg', '何xx.jpg', '余xx.jpg']，而Windows资源管理器中显示的却是['安xx.jpg', '白x.jpg', '曹xx.jpg', '陈xx.jpg']。一开始我以为后者是按拼音进行排序的，还尝试了安装能够把中文转换成拼音的模块，基于文件名的拼音进行排序，但实际上该顺序与通过拼音得到的顺序仍然有部分不同。通过网上查阅资料发现，Windows资源管理器是按照所谓的自然排序的方法进行排序的。

背景：自然排序

什么是自然排序？

“naturally” is rather ill-defined, but in general it means sorting based on meaning and not computer code point

怎样按自然排序的规则进行排序？

Java的类可以通过实现Comparable接口、重写compareTo方法指定自然排序的规则；
Python通过为函数list.sort或sorted的key参数指定排序规则即可，比如：sorted(['a', 'b', 'c', 'A', 'B', 'C'], key=str.lower)得到['a', 'A', 'b', 'B', 'c', 'C']。

基于Python的解决方案

通过pip安装natsort库: pip install natsort；
设置当前语言环境为zh_CN.UTF-8:

import locale
locale.setlocale('zh_CN.UTF-8')

导入natsort库进行排序：natsorted(filenames, alg=ns.LOCALE)

完整代码如下：

import locale
from pathlib import Path

from natsort import natsorted, ns

locale.setlocale('zh_CN.UTF-8')
basedir = Path('path/to/folder')
filenames = [file.stem for file in basedir.iterdir()]  # file.stem表示取文件的名字（不包含文件扩展名）
filenames_sorted = natsorted(names, alg=ns.LOCALE)
print(filenames_sorted)

参考材料

posted @ 2021-12-03 23:15 taojiahong 阅读(1683) 评论(0) 收藏举报

刷新页面返回顶部

Windows资源管理器文件名排序

Windows资源管理器文件名排序

背景：自然排序

什么是自然排序？

怎样按自然排序的规则进行排序？

基于Python的解决方案

参考材料

公告