结构化文档,例如科学文献和病历,是丰富的知识资源。然而,大多数自然语言处理技术将这些文档视为纯文本,忽略了布局结构和视觉信号的重要性。对此类结构进行建模对于全面理解这些文档至关重要。本文提出了从结构化文档中提取结构化知识的新颖算法。
首先,我们提出 GraphIE,这是一种信息提取框架,旨在对结构化文档中的非局部和非顺序依赖关系进行建模。GraphIE 通过图神经网络利用结构信息来增强单词级标记预测。在对三个提取任务的评估中,GraphIE 始终优于仅对纯文本进行操作的顺序模型。
接下来,我们深入研究化学领域的信息提取。科学文献经常以信息图的形式描述分子和反应。为了提取这些分子,我们开发了 MolScribe,这是一种将分子图像转换为其图结构的工具。MolScribe 将符号化学约束集成到图像到图生成模型中,展示了在处理不同绘图风格和约定方面的强大性能。为了提取反应方案,我们提出了 RxnScribe,它通过序列生成公式解析反应图。尽管在适度的数据集上进行了训练,RxnScribe 在不同类型的图上都实现了强大的性能。
最后,我们介绍 TextReact,这是一种通过文本检索直接增强预测化学的新方法,绕过了中间信息提取步骤。我们关于反应条件推荐和逆合成预测的实验证明了 TextReact 在从文献中检索相关信息并将其推广到新输入方面的功效。
作者:Yujie Qian
类型:2023年博士论文
学校:Washington State University(美国华盛顿州立大学)
下载链接:
链接: https://pan.baidu.com/s/1NGaRMsjaIXmtoEcT_yPEtA?pwd=5f7u
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
微信群 公众号