博士论文 | 从结构化文档到结构化知识 150页

智源社区2年前 (2023)发布智源社区

409 0 0

结构化文档，例如科学文献和病历，是丰富的知识资源。然而，大多数自然语言处理技术将这些文档视为纯文本，忽略了布局结构和视觉信号的重要性。对此类结构进行建模对于全面理解这些文档至关重要。本文提出了从结构化文档中提取结构化知识的新颖算法。

首先，我们提出 GraphIE，这是一种信息提取框架，旨在对结构化文档中的非局部和非顺序依赖关系进行建模。GraphIE 通过图神经网络利用结构信息来增强单词级标记预测。在对三个提取任务的评估中，GraphIE 始终优于仅对纯文本进行操作的顺序模型。

接下来，我们深入研究化学领域的信息提取。科学文献经常以信息图的形式描述分子和反应。为了提取这些分子，我们开发了 MolScribe，这是一种将分子图像转换为其图结构的工具。MolScribe 将符号化学约束集成到图像到图生成模型中，展示了在处理不同绘图风格和约定方面的强大性能。为了提取反应方案，我们提出了 RxnScribe，它通过序列生成公式解析反应图。尽管在适度的数据集上进行了训练，RxnScribe 在不同类型的图上都实现了强大的性能。

最后，我们介绍 TextReact，这是一种通过文本检索直接增强预测化学的新方法，绕过了中间信息提取步骤。我们关于反应条件推荐和逆合成预测的实验证明了 TextReact 在从文献中检索相关信息并将其推广到新输入方面的功效。

博士论文 | 从结构化文档到结构化知识 150页

论文题目：From Structured Document To Structured Knowledge

作者：Yujie Qian

类型：2023年博士论文

学校：Washington State University（美国华盛顿州立大学）

下载链接：

链接: https://pan.baidu.com/s/1NGaRMsjaIXmtoEcT_yPEtA?pwd=5f7u

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

博士论文 | 从结构化文档到结构化知识 150页

微信群 公众号