【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）

智源社区2年前 (2023)发布智源社区

848 0 0

【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）
【论文标题】MedICaT: A Dataset of Medical Images, Captions, and Textual References
【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）
【作者团队】Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi
【发表时间】2020/10/12
【论文链接】https://arxiv.org/abs/2010.06000
【代码链接】https://github.com/allenai/medicat
【推荐理由】
本文收录于EMNLP 2020会议，来自艾伦人工智能研究所的研究人员提出一个包括从131000篇开源医学论文中爬取的217000张医疗图片及其相关对应文本描述的数据集MedICaT，旨在解决医疗科学文献中图片检索和图像-文本对齐中的问题。
理解图片与文本之间的关系是理解科学文献的关键，特别是在医学相关研究中，由于医学数据相当复杂，所以通常一个医学数据包含多个子图，然后用详细的文字描述了它们的内容。
在以往对科学论文研究中的重点是如何对文中图片内容进行分类，并没有研究论文中图片与文本的对应关系，因此并不能很好地对相关科学文献进行理解。
为了解决图片检索和图片-文本对齐的问题，作者引入了基于上下文的医疗图像数据集：MedICaT。该数据集包含来自131000篇生物医学相关论文中的217000张图像，并包括相关描述信息，内联引用，和子图信息(如图)。
【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）
最后，通过使用MedICaT数据集，作者在论文中介绍了在复合图片中将子图转换成对应的子描述任务，并且证实了内联引用在图像-文本匹配中的实用性，对用机器理解医学科学文献的发展有重要意义。