计算机科学 > 机器学习
[提交于 2020年3月17日
]
标题: 自监督日志解析
标题: Self-Supervised Log Parsing
摘要: 日志在软件系统的开发和维护中被广泛使用。 它们收集运行时事件,并允许跟踪代码执行,这使得多种关键任务成为可能,例如故障排除和故障检测。 然而,大规模软件系统生成大量半结构化的日志记录,这对自动化分析构成了重大挑战。 将带有自由格式文本日志消息的半结构化记录解析为结构化模板是进一步分析的第一步和关键步骤。 现有方法依赖于特定于日志的启发式方法或手动规则提取。 这些方法通常专门用于解析某些类型的日志,因此限制了性能分数和泛化能力。 我们提出了一种称为NuLog的新解析技术,该技术利用自监督学习模型,并将解析任务形式化为掩码语言模型(MLM)。 在解析过程中,模型以向量嵌入的形式从日志中提取摘要。 这使得MLM的预训练可以与下游异常检测任务相结合。 我们在10个真实世界日志数据集上评估了NuLog的解析性能,并将结果与12种解析技术进行了比较。 结果表明,NuLog在解析准确性方面优于现有方法,平均达到99%,并且与真实模板的编辑距离最低。 此外,进行了两个案例研究,以展示该方法在监督和无监督场景下的基于日志的异常检测能力。 结果表明,NuLog可以成功用于支持故障排除任务。 实现可在https://github.com/nulog/nulog获得。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.