日志过量优化

背景

有两个B端服务,因为不好的日志习惯,无效日志量过大,日志经常被自动覆盖,只能存几天,导致排查问题困难,针对此,做了下无效日志的清理优化, 本身没什么技术含量,但是操作起来比较恶心。

这个问题的关键是对于一个复杂的B端项目,每天百G的文件里量,如何找到无效日志。

首先, 查看日志文件,平均每天上百G的日志文件,docker的容量有成本

分析

打日志固然是个好习惯,但是往往我们的一些非关键日志会因为使用不当,或者通过调用含有日志的方法导致日志过多,带来两个影响,一是排查问题困难,二是无效日志会导致磁盘爆炸而不得不缩短日志保存周期。针对次总结了几种方法来处理

  • 针对性处理
    • 日志频次过高
    • 单条日志过长且无用
    • 特殊场景
      • 高频定时任务
      • 全局处理、切面(Java Spring下)等
  • 通用性处理
    • 日志环境分级打印
    • 关键高频日志打印开关配置化
    • 日志截断

日志频次过高

查询日志出现频次

// 查询高频日志
awk -F'[][]' '{print $6}' app.log | sort | uniq -c | sort -rn | head -n 20

根据此我们可以找到哪些高频日志,去看下是否真的需要以及合理,比如在我们这个场景下,每个小时的日志文件里有100多万次记录,排查发现是历史堆砌逻辑循环套循环的使用,大部分是不合理的。

单条日志过长且无用

// 显示日志文件里最长的10条日志,倒序排序
awk '{ print length, $0 }' app.log | sort -nr | head -n 10

查询有没有打印字节流、或者图片base64、或者size超长的list比如定时的缓存,getAll诸如此类。

高频定时任务日志

搜索项目代码里的高频定时任务、切面、全局处理等

日志环境分级打印

这个就不说了,需要的是日常开发中要规范些,不要随手打印,对写下的每一行代码负责。

关键高频日志打印开关配置化

对于量大、高频且用到的频次较低的日志,可以增加Apollo控制开关,控制是否开启。
比如我们有一个ETL服务,会将十几种上游数据,经过n层转换,以获取我们系统用到的归一化数据,整个上游数据是十几个库,如果全打印,必然会造成存储爆炸。

做法是,在入口和出口出保留完整日志,其他中间转换层,保留配置化的日志开关

if (AoplloConfig.getWorksheetTransOpen()) {
    log.info("worksheetTransMsg={}", worksheetMsg);
}

日志截断

以Java logback为例,可以添加全局的日志截断操作,对于过长日志做截断操作处理。
可以通过继承ClassicConverter类重写convert方法来实现全局的日志输出前处理操作
参考logback下日志输出前处理操作——以日志脱敏为例

posted @ 2024-12-20 15:00  泰阁尔  阅读(11)  评论(0编辑  收藏  举报