Python常用方法

阅读目录

1、遍历目录及文件方法
Windows列出磁盘文件及文件夹大小
2、时间datetime、time模块
3、多进程
4、如果文件不存在就创建
5、压缩文件
python统计apache、nginx访问日志IP访问次数
压缩和解压文件
输入参数判断
输入去掉空白
Python执行linux命令并得到执行结果
ftp客户端ftplib
python按行读取文件，如何去掉换行符"\n"
python 字典、列表、字符串之间的转换
列表转换成字典
shell与python间传递变量方法
python用变量拼接成 shell命令执行
在windows下删除文件报错
Python删除过期文件
清理以开头过期日志文件
函数执行的结果赋值给某个变量（使用return）
将列表split分成 prefix, suffix
pymysql使用方法
Python脚本：自动备份并压缩文件，同时删除过期文件
文件的读、写
文件的写入多行
文件的移动和复制
判断文件是否存在
端口telnet
多线程
windows输出中文乱码
Python启动windows服务或程序
用enumerate对现有列表每项进行修改
Python爬虫
with open写入Excel CSV文件
保存为中文csv文件
Tomcat配置文件注释
Python对文件修改，替换，删除
对文件所有行前添加‘#’注释
对文件进行注释#，空行不注释
Python发送邮件
Python输入参数执行脚本
使用python读取文件数据并转化为列表
正则的使用和举例
python 判断文件夹内文件数量以及文件夹数量
python 异常处理
print输出结果的三种方法

1、遍历目录及文件方法

1）根据时间遍历指定目录下的文件

[root@04 b2c]# cat file_list.py 
#!/usr/bin/env python
# coding: utf-8
import os
def get_file_list(file_path):
    dir_list = os.listdir(file_path)
    if not dir_list:
        return
    else:
        # 注意，这里使用lambda表达式，将文件按照最后修改时间顺序升序排列
        # os.path.getmtime() 函数是获取文件最后修改时间
        # os.path.getctime() 函数是获取文件最后创建时间
        dir_list = sorted(dir_list,  key=lambda x: os.path.getmtime(os.path.join(file_path, x)))
        # print(dir_list)
        return dir_list

print get_file_list('/logarchive/b2c')

执行
[root@04 b2c]# python file_list.py 
['2019-05-29.log', '2019-05-30.log', 'b2c_input.py', '2019-05-31.log', '2019-06-01.log', '2019-06-02.log', '2019-06-03.log', '2019-06-04.log', '2019-06-05.log', '2019-06-06.log', '2019-06-07.log', '2019-06-08.log', '2019-06-09.log', '2019-06-10.log', '2019-06-11.log', '2019-06-12.log', '2019-06-13.log', '2019-06-14.log', '2019-06-15.log', '2019-06-16.log', '2019-06-17.log', '2019-06-18.log', '2019-06-19.log', '2019-06-20.log', '2019-06-21.log', '2019-06-22.log', '2019-06-23.log', '2019-06-24.log', 'file.py', 'file_list.py']

2）如果过滤以log为结尾的文件

方法一：
[root@04 b2c]# cat file_list.py 
#!/usr/bin/env python
# coding: utf-8
import os
def get_file_list(file_path):
    dir_list = os.listdir(file_path)
    if not dir_list:
        return
    else:
        # 注意，这里使用lambda表达式，将文件按照最后修改时间顺序升序排列
        # os.path.getmtime() 函数是获取文件最后修改时间
        # os.path.getctime() 函数是获取文件最后创建时间
        dir_list = sorted(dir_list,  key=lambda x: os.path.getmtime(os.path.join(file_path, x)))
        for filename in dir_list:
            if filename.endswith(".log"):
                print filename

get_file_list('/logarchive/b2c')

[root@app04 b2c]# python file_list.py 
2019-05-29.log
2019-05-30.log
2019-05-31.log
2019-06-01.log
2019-06-02.log
2019-06-03.log
2019-06-04.log
2019-06-05.log
2019-06-06.log
2019-06-07.log
2019-06-08.log
2019-06-09.log
2019-06-10.log
2019-06-11.log
2019-06-12.log
2019-06-13.log
2019-06-14.log
2019-06-15.log
2019-06-16.log
2019-06-17.log
2019-06-18.log
2019-06-19.log
2019-06-20.log
2019-06-21.log
2019-06-22.log
2019-06-23.log
2019-06-24.log


方法二：
#!/usr/bin/env python
# coding: utf-8

import os, glob, time

# 定义要清理文件的目录
root = '/logarchive/b2c'
_list = []
for folder in glob.glob(root):
  for _log_name in glob.glob(folder + '/*.log'):
    _list.append(_log_name)
    filelist = sorted(_list)

for log_name in filelist:
    print log_name
    f = open(log_name, 'r')
    content = f.readlines()
    f.close()
    _time = []
    for item in content:
            time = int(item.strip().split('>>>')[-1].split('ms')[0])
            _time.append(time)

    access_time = sorted(_time)
    print("b2c 运价访问时间:")
    print("min: %s ms"% access_time[0])
    print("max: %s ms"% access_time[-1])

    sum = 0
    access_count = len(_time)
    for i in _time:
            sum += i
    avg = sum/access_count
    print("avg: %s ms" % avg)
    print '-'*50

print filelist

3）网上收集的其他方法，python 过滤出某后缀名文件

方法1：

import glob 
import os
os.chdir(“./”)
for file in glob.glob(“*.py”):
    print file

方法2：

for file in os.listdir(“./”):
    if file.endswith(“.py”):
        print file

方法3：

for root, dirs, files in os.walk(“./”):
    for file in files:
        if file.endswith(“.py”):
            print os.path.join(root, file)

4) os.walk()方法

import os

def all_path(dirname):

    result = []#所有的文件

    for maindir, subdir, file_name_list in os.walk(dirname):

        print("1:",maindir) #当前主目录
        print("2:",subdir) #当前主目录下的所有目录
        print("3:",file_name_list)  #当前主目录下的所有文件

        for filename in file_name_list:
            apath = os.path.join(maindir, filename)#合并成一个完整路径
            result.append(apath)

    return result

print(all_path("E:\myTest"))

5) python遍历目录下的所有文件和目录

目录结构如下图：

test---a------d------g--------g.txt

test---a------d------a.txt

test---a------e

--------b

--------c

--------1.txt

--------2.txt

一、使用os.walk遍历所有的目录和文件

1、获取test目录下的所有文件

        for root,dirs,files in os.walk(r"D:\test"):
            for file in files:
                #获取文件所属目录
                print(root)
                #获取文件路径
                print(os.path.join(root,file))

2、获取test目录下的所有目录

        for root,dirs,files in os.walk(r"D:\test"):
            for dir in dirs:
                #获取目录的名称
                print(dir)
                #获取目录的路径
                print(os.path.join(root,dir))

二、利用os.listdir递归获取所有的目录路径和文件路径

    def get_file_path(root_path,file_list,dir_list):
        #获取该目录下所有的文件名称和目录名称
        dir_or_files = os.listdir(root_path)
        for dir_file in dir_or_files:
            #获取目录或者文件的路径
            dir_file_path = os.path.join(root_path,dir_file)
            #判断该路径为文件还是路径
            if os.path.isdir(dir_file_path):
                dir_list.append(dir_file_path)
                #递归获取所有文件和目录的路径
                get_file_path(dir_file_path,file_list,dir_list)
            else:
                file_list.append(dir_file_path)
     
    if __name__ == "__main__":
        #根目录路径
        root_path = r"D:\test"
        #用来存放所有的文件路径
        file_list = []
        #用来存放所有的目录路径
        dir_list = []
        get_file_path(root_path,file_list,dir_list)
        print(file_list)
        print(dir_list)

转自

python 过滤出某后缀名文件 - 快乐多巴胺 - 博客园 https://www.cnblogs.com/pscc/p/10122517.html

python按时间排序目录下的文件 - Mr番茄蛋的博客 - CSDN博客 https://blog.csdn.net/qq_35203425/article/details/80903348

python遍历目录下的所有文件和目录详细介绍 - 修炼之路 - CSDN博客 https://blog.csdn.net/sinat_29957455/article/details/82778306

回到顶部

Windows列出磁盘文件及文件夹大小

简单版：提取指定盘和大小的文件及文件夹

#!/usr/bin/env python
# coding: utf-8
# 版本：提取指定盘和大小的文件及文件夹


import os
from os.path import join, getsize
 
 
def get_paths_size(dirs, maxnum):
    # 提取指定文件夹和大小的函数
    print("{} -> 文件夹内文件占用空间：".format(dirs))
    size = 0
    for root, dirs, files in os.walk(dirs):
        sums = sum([getsize(join(root, file)) for file in files]) // 1024 // 1024
        if sums > maxnum:
            print('{:>8,d} MB -> {}'.format(sums, root))
        size += sums
 
    print('{:>8,d} MB -> 总大小'.format(size))
 
 
def get_files_size(dirs, maxnum):
    # 提取指定文件夹内文件和大小的函数
    print("{} -> files usage of disk:".format(dirs))
    size = 0
    for root, dirs, files in os.walk(dirs):
        for file in files:
            fpth = join(root, file)
            sums = getsize(fpth) // 1024 // 1024
            if sums > maxnum:
                print('{:>8,d} MB -> {}'.format(sums, fpth))
            size += sums
 
    print('{:>8,d} MB -> 总大小'.format(size))
 
 
def main():
    paths = r'C:\\'
    numbs = 1024  # -> MB
    # paths = input(r'请输入盘符(如：D:\Python\Python38：')
    # numbs = int(input(r'请)输入大小单位MB(如：1000)：'))
    get_paths_size(paths, numbs)
    get_files_size(paths, numbs)
 
 
if __name__ == '__main__':
    main()

高级版：直接提取C-I盘所有大于1GB（参数可以修改）的文件及文件夹，输出到CSV文件

# -*- coding:utf-8 -*-
import os
from os.path import join, getsize
import csv
 
"""
版本：直接提取C-I盘所有大于1GB的文件及文件夹
并输出CSV文件
盘符不存在则程序执行结束！
文件夹：size_C_path.csv
文件：size_C_file.csv
"""
 
 
def get_dirs_size(dirs, maxnum):
    print(dirs)
    # CSV文件名后缀
    fname = dirs.replace('\\', '_').replace(':', '').replace('/', '_')
    path_size = []  # 路径大小列表
    file_size = []  # 文件大小列表
    size = 0       # 合计
    for root, dirs, files in os.walk(dirs):
        for f in files:
            fp = join(root, f)
            try:
                su = getsize(fp) // 1024 // 1024
            except:
                pass
                #continue
            # su = getsize(fp) // 1024 // 1024
            if su > maxnum:
                file_size.append([su, fp])
                print('{:>8,d} MB --> {}'.format(su, fp))
            pass
        sums = sum([getsize(join(root, file)) for file in files]) // 1024 // 1024
        size += sums
        if sums > maxnum:
            path_size.append([sums, root])
            print('{:>8,d} MB --> {}'.format(sums, root))
            pass
    print('{:>8,d} MB --> {}'.format(size, dirs))
    # 调用导出CSV函数导出CSV文件
    savecsvfile(path_size, ['大小', '文件夹'], 'size_{}path.csv'.format(fname))
    savecsvfile(file_size, ['大小', '文件'], 'size_{}file.csv'.format(fname))
 
 
def savecsvfile(rows, header, csv_name):
    # 导出CSV文件函数
    # if not os.path.exists(csv_name):
    with open(csv_name, 'w', newline='', encoding='utf-8') as f:
        fc = csv.writer(f)
        fc.writerow(header)
        fc.writerows(rows)
        print(csv_name, '导出成功！')
 
 
def main():
    # 所有盘符列表推导式：从C盘到I盘
    paths = ["{}:/".format(x) for x in 'CDEFGHI']
    for p in paths:
        if not os.path.exists(p):
            print('盘符 -> {} 不存在!'.format(p))
            continue
        # 只提取大于1000MB的文件和文件夹
        get_dirs_size(p, 1000)
 
 
if __name__ == '__main__':
    main()

回到顶部

2、时间datetime、time模块

# 时间格式转换
time.strftime('%Y-%m-%d %H:%M:%S')
'2016-11-12 01:20:54'

# 获取昨天日期

date = datetime.date.today()

>>> date.today() - timedelta(days=1) 
datetime.date(2016, 11, 11)
>>> date.isoformat(date.today() - timedelta(days=1)) 
'2016-11-11'

# 获取明天日期 
>>> date.today() + timedelta(days=1) 
datetime.date(2016, 11, 13) 
>>> date.isoformat(date.today() + timedelta(days=1)) 
'2016-11-13'

import datetime
# 获取前100天日期
(datetime.datetime.now() - datetime.timedelta(days = 100)).strftime("%Y-%m-%d") 
Out[18]: '2019-12-13'

# 获取昨天日期
(datetime.datetime.now() - datetime.timedelta(days = 1)).strftime("%Y-%m-%d") 
Out[19]: '2020-03-21'

回到顶部

3、多进程

from multiprocessing import Pool, current_process
import urllib2

urls = [
    'http://www.baidu.com',
    'http://www.jd1.com',
    'http://www.sina.com',
    'http://www.163.com',
]

def status_code(url):
    print( 'process name:', current_process().name)
    try:
        req = urllib2.urlopen(url, timeout=2)
        return req.getcode()
    except urllib2.URLError:
        return

p = Pool(processes=4)
for url in urls:
    r = p.apply_async(status_code, args=(url,))
    #print r.get()
    #if r.get(timeout=1) == 200:
    if r.get() == 200:
        print("%s OK" %url)
    else:
        print("%s NO" %url)

转自 博客地址：http://lizhenliang.blog.51cto.com and https://yq.aliyun.com/u/lizhenliang

回到顶部

4、如果文件不存在就创建

if not os.path.exists('host_info'):
   f = open('host_info', 'w')
   f.close()

回到顶部

5、压缩文件

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import tarfile
tar = tarfile.open("/root/test/test.tar.gz","w:gz")   # 创建压缩包名
for path,dir,files in os.walk("/root/test"):     # 递归文件目录
        for file in files:
                fullpath = os.path.join(path,file)
                tar.add(fullpath)                          # 创建压缩包
tar.close()

3种压缩方法

gzip            [解压缩gzip 删除原文件]

#压缩gzip
import gzip
f_in = open('file.log', 'rb')
f_out = gzip.open('file.log.gz', 'wb')
f_out.writelines(f_in)
f_out.close()
f_in.close()

#压缩gzip
File = 'xuesong_18.log'
g = gzip.GzipFile(filename="", mode='wb', compresslevel=9, fileobj=open((r'%s.gz' %File),'wb'))
g.write(open(r'%s' %File).read())
g.close()

#解压gzip
g = gzip.GzipFile(mode='rb', fileobj=open((r'xuesong_18.log.gz'),'rb'))
open((r'xuesong_18.log'),'wb').write(g.read())

tarfile         [归档压缩tar.gz 保留原文件]

# 压缩tar.gz
import os
import tarfile
tar = tarfile.open("/tmp/tartest.tar.gz","w:gz")   # 创建压缩包名
for path,dir,files in os.walk("/tmp/tartest"):     # 递归文件目录
    for file in files:
        fullpath = os.path.join(path,file)
        tar.add(fullpath)                          # 创建压缩包
tar.close()

# 解压tar.gz
import tarfile
tar = tarfile.open("/tmp/tartest.tar.gz")
#tar.extract("/tmp")                               # 全部解压到指定路径
names = tar.getnames()                             # 包内文件名
for name in names:
    tar.extract(name,path="./")                    # 解压指定文件
tar.close()

zipfile         [解压缩zip 最大2G]

# 压缩zip
import zipfile,os
f = zipfile.ZipFile('filename.zip', 'w' ,zipfile.ZIP_DEFLATED)    # ZIP_STORE 为默认表不压缩. ZIP_DEFLATED 表压缩
#f.write('file1.txt')                              # 将文件写入压缩包
for path,dir,files in os.walk("tartest"):          # 递归压缩目录
    for file in files:
        f.write(os.path.join(path,file))           # 将文件逐个写入压缩包
f.close()

# 解压zip
if zipfile.is_zipfile('filename.zip'):             # 判断一个文件是不是zip文件
    f = zipfile.ZipFile('filename.zip')
    for file in f.namelist():                      # 返回文件列表
        f.extract(file, r'/tmp/')                  # 解压指定文件
    #f.extractall()                                # 解压全部      


# 如果文件大于2G
# 也可以使用context manager
my_zip = zipfile.ZipFile('files.zip', 'w')
# 如果文件大于2G
zipfile.ZipFile('files.zip', 'w', zipfile.ZIP_DEFLATED, True)

回到顶部

python统计apache、nginx访问日志IP访问次数

前言：python统计apache、nginx访问日志IP访问次数并且排序（显示前20条）。其实用awk+sort等命令可以实现，用awk数组也可以实现，这里只是用python尝试下。

apache脚本：

nginx脚本：

posted @ 2019-06-25 10:10 paul_hch 阅读(2229) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称： paul_hch
园龄： 10年
粉丝： 166
关注： 20

+加关注

2025年1月

日

一

二

三

四

五

六

hch的随笔成功的秘诀在于恒心—迪斯雷利

成功的秘诀在于恒心——迪斯雷利

Python常用方法

1、遍历目录及文件方法

1）根据时间遍历指定目录下的文件

2）如果过滤以log为结尾的文件

3）网上收集的其他方法，python 过滤出某后缀名文件

方法1：

方法2：

方法3：

4) os.walk()方法

5) python遍历目录下的所有文件和目录

Windows列出磁盘文件及文件夹大小

2、时间datetime、time模块

3、多进程

4、如果文件不存在就创建

5、压缩文件

3种压缩方法

python统计apache、nginx访问日志IP访问次数

apache脚本：

nginx脚本：

公告

搜索

我的标签

积分与排名

随笔分类 (1033)

随笔档案 (1212)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

成功的秘诀在于恒心——迪斯雷利

1、遍历目录及文件方法

1）根据时间遍历指定目录下的文件

2）如果过滤以log为结尾的文件

3）网上收集的其他方法，python 过滤出某后缀名文件

方法1：

方法2：

方法3：

4) os.walk()方法

5) python遍历目录下的所有文件和目录

Windows列出磁盘文件及文件夹大小

2、时间datetime、time模块

3、多进程

4、如果文件不存在就创建

5、压缩文件

3种压缩方法

python统计apache、nginx访问日志IP访问次数

apache脚本：

nginx脚本：

压缩和解压文件

输入参数判断

判断输入参数是否为2个

输入去掉空白

Python执行linux命令并得到执行结果

subprocess

利用执行命令后的返回代码判断

commands

os.system

ftp客户端ftplib

python按行读取文件，如何去掉换行符"\n"

1、列表与字符串转换

2、列表与字典转换

3、字典与字符串转换

列表转换成字典

shell与python间传递变量方法

python用变量拼接成 shell命令执行

在windows下删除文件报错

Python删除过期文件

清理以开头过期日志文件

函数执行的结果赋值给某个变量（使用return）

将列表split分成 prefix, suffix

pymysql使用方法

Python脚本：自动备份并压缩文件，同时删除过期文件

文件的读、写

文件的写入多行

文件的移动和复制

判断文件是否存在

端口telnet

多线程

windows输出中文乱码

Python启动windows服务或程序

用enumerate对现有列表每项进行修改

Python爬虫

实例1：爬取豆瓣图书名

实例2：爬取校花网站图片

with open写入Excel CSV文件

保存为中文csv文件

Tomcat配置文件注释

Python对文件修改，替换，删除

一、Python使用replace修改原文件内容方式：

二、python 使用正则表达式 替换文件内容 re.sub 方法替换

三、python 匹配IP及端口

对文件所有行前添加‘#’注释

对文件进行注释#，空行不注释

Python发送邮件

Python输入参数执行脚本

使用python读取文件数据并转化为列表

正则的使用和举例

python 判断文件夹内文件数量以及文件夹数量

python 异常处理

print输出结果的三种方法

公告

搜索

积分与排名

随笔分类 (1033)

随笔档案 (1212)

二、python 使用正则表达式替换文件内容 re.sub 方法替换