使用基于注意力的编码器-解码器实现医学图像描述

什么是图像描述

图像描述是生成图像文本描述的过程。它使用自然语言处理和计算机视觉来为图像生成描述的文本字幕。一幅图像可以有很多个不同的描述，但是只要它正确地描述了图像，并且描述涵盖了图像中的大部分信息就可以说是没问题的。下面是示例图片和生成的描述文字。

放射学中的图像描述

放射学也称为诊断成像，是一系列通过拍摄身体部位的照片或图像来诊断和治疗疾病的测试。虽然有几种不同的成像检查，但最常见的包括 X 射线、MRI、超声波、CT 扫描和 PET 扫描。

放射科医生将查看这些成像测试的结果，找到评估和支持诊断的相关图像。患者完成影像学检查后，放射科医生将向临床医生提供他们的解释报告。典型的放射学报告包括以下部分：检查名称或类型、检查日期、MeSH（医学主题词库）、解释放射科医师详细信息、临床病史等，

借助深度学习和自然语言处理，我们可以通过描述 X 射线来减少放射科医生的工作量，因此在本案例研究中，我们将从 X 射线中提取结果，将相同的概念扩展到其他部分例如MeSH等，

为什么这个问题很重要？

根据美国放射学杂志和 BMJ：英国医学杂志，与特定地区的人口相比，放射科医生很少，特别是在农村和较小的社区环境中，因此医学图像解释和编目存在巨大延迟，从而影响到医疗诊断，并使患者护理面临风险。

医学图像由专业医学专业人员（放射科医师）阅读和解释，他们对每个检查区域的发现通过书面医学报告（放射学报告）进行记录和传达。撰写医疗报告的过程通常需要 5-10 分钟左右。一天之内，医生必须编写数以百计的医学报告，这可能会花费他们很多时间。如果我们开发的模型可以在没有放射科医生和编目员的任何干预的情况下加快医学图像解释和编目，这将有效地解决了这些问题。

用深度学习来解决这个问题!

图像和文本句子是序列信息，因此我们将在编码器-解码器等设置中使用像 LSTM 或 GRU 这样的 RNN（循环神经网络），并添加注意力机制来提高我们的模型性能。当然使用Transformers 理论上来说会更好。

如何评价我的模特的表现呢？BLEU: Bilingual Evaluation Understudy

BLEU 是一种用于评估机器翻译文本质量的算法。BLEU 背后的中心思想是机器翻译越接近专业的人工翻译越好，它也是最早声称与人工质量判断具有高度相关性的指标之一，并且到现在仍然是最受欢迎的指标之一。

BLEU 的输出始终是一个介于 0 和 1 之间的数字。该值表示候选文本与参考文本的相似程度，接近 1 的值表示更相似。本文使用的 BLEU 是基于n-gram 精度改进的，因为它使用 n-gram 来比较和评价生成文本的质量并给出分数，它计算快速简单并且被广泛使用。

BLEU 的工作方式很简单。给定一个句子和一组参考句子的一些候选翻译，我们使用词袋方法来查看在翻译和参考句子中同时出现了多少 BOW。 BOW 是一种简单而高效的方法，可确保机器翻译包含参考翻译也包含的关键短语或单词。换句话说，BLEU 将候选翻译与人工生成的带注释的参考翻译进行比较，并比较候选句子中有多少命中。 BOW 出现次数越多，翻译效果就越好。

完整文章：

https://avoid.overfit.cn/post/ccf35d78cb23425686d61c53aa404b76

posted @ 2022-10-16 12:49 deephub 阅读(160) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

使用基于注意力的编码器-解码器实现医学图像描述

什么是图像描述

放射学中的图像描述

为什么这个问题很重要？

用深度学习来解决这个问题!

公告