用Python处理字幕文件

始

下了部老电影，找到了相关的中英文字幕，奇怪的是，英文字幕能正常现实，中文字幕却不可以，我一度以为是Linux下播放器编码的问题，但是怎么更改设置都无效，而我以前在看其他电影时，中文字幕是正常的。所以，怀疑是字幕文件的问题，打开中英文字幕文件对比：

英文

5
00:02:53,500 --> 00:02:54,700
Police. Hello?

6
00:03:03,800 --> 00:03:08,000
EVERYONE IS THE MOON

7
00:03:10,100 --> 00:03:13,700
I CAN'T HANG ON ANYMORE

中文


5

00:02:53,500 - - > 00:02:54,700

警察。喂?

6

00:03:03,800 - - > 00:03:08,000

每个人都是月亮

7

00:03:10,100 - - > 00:03:13,700

我不能坚持下去了

可以看出，中文字幕的格式有问题，所以我决定用Python的正则表达式修改一下。

代码

import re

with open('./Minazuki 1999.srt', encoding='utf-8') as file:
    srt = file.read()

# 第一步多余换行
srt = srt.replace('\n\n', '\n')
# 需要在序号前面补上换行
srt = re.sub(r'\n(\d{1,3})\n', r'\n\n\1\n', srt)
# 修正其他字符错误
srt = srt.replace('- - ', '--')

with open('./Minazuki 1999_new.srt', 'w', encoding='utf-8') as file:
    file.write(srt)

输出的字幕文件：

5
00:02:53,500 --> 00:02:54,700
警察。喂?

6
00:03:03,800 --> 00:03:08,000
每个人都是月亮

7
00:03:10,100 --> 00:03:13,700
我不能坚持下去了

已经可以正常显示了。

学到的知识点记录

参考了这篇博客, 正则表达式30分钟入门教程。
可是使用()来对正则模式匹配的内容进行编号，在后续中用数字来\数字使用对应的内容，如

srt = re.sub(r'\n(\d{1,3})\n', r'\n\n\1\n', srt)

其中，(\d{1,3})表示的内容，在后面用\1来访问，\0表示整个正则表达式。除了编号，也可以命名，例如(?<Numers>\d{1,3})，在后面可以用\k<Numbers>来访问，不过该方法在我在Python中未成功使用，有待进一步调查。

posted @ 2017-08-14 00:41 changediff 阅读(5331) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

毛毛的博客

近一点

用Python处理字幕文件

始

代码

学到的知识点记录

公告