Drain算法-笔记

简介

算法原理图：

有几点注意：

计算日志消息和每个日志组的日志事件之间的序列相似性：

\[\mathrm{sinSeq}=\frac{\sum_{\mathrm{i}=1}^\mathrm{n}\mathrm{equ}(\mathrm{seq}_1(\mathrm{i}),\mathrm{seq}_2(\mathrm{i}))}{\mathrm{n}} \]

seq分别是同一组内，两个日志的序列(以空格划分的字符串数组):

\[\text{equ}(\mathrm t_1 ,\mathrm t_2 )=\begin{cases}1&\text{if} \mathrm t_1 ==\mathrm t_2\\0&\text{otherwise}\end{cases} \]

如果stsimSeq≥st(阈值)，那么Drain就会返回该组作为最佳匹配，否则返回一个标志位表示没有合适的。

如果在返回了合适的日志组，则Drain将当前日志消息的日志ID添加到返回的日志组中的日志ID中。此外，将更新返回日志组中的日志事件。

扫描日志消息和日志事件相同位置的token，如果两个token相同，则不修改该token位置上的token。否则，在日志事件中通过通配符*更新该token位置上的token。

如果无法找到合适的日志组，则根据当前日志消息创建一个新的日志组。

posted @ 2024-09-30 15:51 漫漫长夜何时休阅读(544) 评论(0) 收藏举报

刷新页面返回顶部