Approach for Unsupervised Bug Report Summarization 无监督bug报告汇总方法

AUSUM: approach for unsupervised bug report summarization

1. Abstract

  • 解决的bug被归类以便未来参考
  • 缺点是还是需要手动的去细读很多的推荐的关于bug的内容
    • Automatic summarization of bug reports 自动汇总bug报告
    • 之前的研究是基于学习的方法去做bug summarization
      • 需要大量的训练集
      • 倾向于获得模型所产生的数据
  • 运用四种无监督的bug摘要技巧
    • industrial bug reports 不适合
    • 适合于格式良好的文件
    • 提出了一种降低噪声的方法:有助于提高基本技术上的摘要精度
    • 通过降低噪声的方法,两种无监督技术可以运用于大规模的bug报告

2. Introduction

  • 被归类的bug仓库:①帮助更好的理解新bug ②用旧方法解决新bug

  • 还是需要每一条推荐的bug报告并确认是否有有用的信息,花费太多的时间。

    • 一种解决方法是给每条报告提供一个总结summary。但是由于投入巨大的精力而不现实。
  • 提出需要自动汇总错误报告(两种方式)

    • 基于学习的监督方式

      1. 要求用户手动汇总出一个文档
      2. 从这些文档中提取出一组文本特征并训练统计模型
      3. 对一个新文档提取出文本特征并使用模型进行预测产生结果

      note: The practical application of such a supervised technique in any project could be hampered owing to the initial training cost involved. 由于涉及初始培训成本,可能会妨碍这种监督技术在任何项目中的使用。

    • 应用四种无监督的学习方法(Centroid, Maximum Marginal Relevance, Grasshopper, Diverse Rank)

      when the approach was trained on bug reports from the same subject. 有监督的稍微好点

      但是在不同数据集上提供了与监督学习方法同样的精度

      Bug reports resemble conversations, very often with email and chat content pasted.

      所以在处理之前先过滤掉这些noise。这个提前处理提高了无监督算法的精度

      本文的主要贡献:

      1. 一个经典的bug报告模式和新颖的noise过滤
      2. 实验性的评估了四种无监督学习算法,结果证明无监督方法和有监督的一样好
      3. 通过过滤noise产生了更好的summaries

3. Conclusion

  • For both the subjects, the efficacy of the unsupervised techniques improved by applying noise identifier and filtering out sentences classified as Useless and Code. 分为代码和无用

  • direction

    • auto-extract Frequently Asked Questions from a bug repository.
    • if the text summarization approaches mentioned in this paper can be used for code summarization.本文中提到的文本摘要方法是否可用于代码摘要
posted @ 2020-10-19 21:31  Leonida  阅读(224)  评论(0)    收藏  举报