将txt文档按行分割

昨天遇到了一个需求，需要将txt文档按行分割，并指定了行数，

最近在用python，就在网上搜了一下，在参考了http://blog.csdn.net/zhang_red/article/details/9055965这个帖子后，准备自己改一下

发现原帖代码似乎有点问题，改了下代码如下：

# -*- coding: utf-8 -*-
import os


class SplitFiles():
    """按行分割文件"""

    def __init__(self, file_name, line_count=200):
        """初始化要分割的源文件名和分割后的文件行数"""
        self.file_name = file_name
        self.line_count = line_count

    def split_file(self):
        if self.file_name and os.path.exists(self.file_name):
            try:
                with open(self.file_name) as f:  # 使用with读文件
                    temp_count = 0
                    temp_content = []
                    part_num = 1
                    for line in f:
                        if temp_count < self.line_count:
                            temp_count += 1
                        else:
                            self.write_file(part_num, temp_count, temp_content)
                            part_num += 1
                            temp_count = 1
                            temp_content = []
                        temp_content.append(line)
                    else:  # 正常结束循环后将剩余的内容写入新文件中
                        self.write_file(part_num, temp_count, temp_content)

            except IOError as err:
                print(err)
        else:
            print("%s is not a validate file" % self.file_name)

    def get_part_file_name(self, part_num, temp_count):
        """"获取分割后的文件名称：在源文件相同目录下建立临时文件夹temp_part_file，然后将分割后的文件放到该路径下"""
        temp_path = os.path.dirname(self.file_name)  # 获取文件的路径（不含文件名）
        temp_name = os.path.splitext(os.path.basename(self.file_name))[0]
        part_file_name = temp_path + os.sep + temp_name
        if not os.path.exists(part_file_name):  # 如果临时目录不存在则创建
            os.makedirs(part_file_name)
        part_file_name += os.sep + temp_name + "_part" + str(part_num) + "_"+ str(temp_count) + ".txt"
        return part_file_name

    def write_file(self, part_num, temp_count, *line_content):
        """将按行分割后的内容写入相应的分割文件中"""
        print temp_count
        part_file_name = self.get_part_file_name(part_num, temp_count)
        print(line_content)
        try:
            with open(part_file_name, "w") as part_file:
                part_file.writelines(line_content[0])
        except IOError as err:
            print(err)


if __name__ == "__main__":
    sf = SplitFiles(r"/Users/xxx/目标文档.txt", 100000)
    sf.split_file()

代码将txt文档每10W行，进行分割，达到了预期目标。

就在我打算写个博客记录时，发现了更好用的东东，命令行

linux或osx可用，

命令行

wc -l 目标文本.txt

用来统计文本共有多少行

split -l 100000 目标文本.txt 目标文本part

将目标文本切割每100000一个文件文件前缀名为目标文本part

posted @ 2017-07-21 21:09 tianxiaozz 阅读(1541) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

公告

昵称： tianxiaozz
园龄： 13年
粉丝： 11
关注： 27

+加关注

2025年3月

日

一

二

三

四

五

六

将txt文档按行分割

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论