DocumentAI的模型、任务和基准数据集-电子发烧友网

随着最近几年多模态大火的，越来越多的任务都被推陈出新为多模态版本。譬如，传统对话任务，推出了考虑视觉信息的多模态数据集；事件抽取，也推出视频形式的多模态版本；就连 grammar induction（语法归纳），也有了多模态版的（详见 NAACL'2021 best paper）。

然而，多模态大火虽是最近的事情，但它并不是近两年才有的什么新威廉希尔官方网站 。如果是想要对这一领域有比较深的研究，甚至想要做出工作、有所创新，那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的。

事实上，有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前，就已经默默被研究二十来年了。比如，智能文档（Document AI）威廉希尔官方网站。所谓智能文档威廉希尔官方网站，也就是自动理解、分析业务文档威廉希尔官方网站 ，文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在，所以智能文档威廉希尔官方网站很多年来都是几个大厂的研究重点之一。近年来，深度学习威廉希尔官方网站的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期，微软亚研院发表了一篇综述，简要回顾了一些有代表性的DocumentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实，是值得细细阅读的多模态相关综述，故与各位分享。

Document AI 发展历程

作者概述智能文档的发展大致经历了以下三个阶段:

第一阶段: 启发式阶段

20世纪90年代初,研究人员主要使用基于规则的启发式(Heuristic rule-based document layout analysis)来理解和分析文档，通过手动观察文档的布局信息，从而总结出一些启发式规则。启发式规则方法主要使用固定的布局信息来处理文档.方法较为固定，定制的规则可扩展性较差,通用性较差。

基于启发式规则的文档的布局分析大致分为三种方式:
(1)自顶向下:文档图像逐步划分到不同的区域,递归执行切割直到该区域被划分为预定义的标准，通常是块或列。例如projection profile,采用X-Y cut算法对文档进行剪切,通常用于文本区域和行距固定的结构化文本,对特定格式的文档进行更快、更有效的分析.但其对边界噪声敏感，对倾斜文本的处理效果不佳。
(2)自底向上:使用像素或组件作为基本单元,将其分组并合并成一个更大的同质区域,自底向上方法虽然需要更多的计算资源，但更通用，可以覆盖更多具有不同布局类型的文档。
(3)混合策略:将自上而下和自下而上相结合，例如Okamoto & Takahashi使用分隔符和空格来切割块，并将内部组件进一步合并到每个块中的文本行中,进而解析文档的布局。

第二阶段:机器学习阶段

直到从2000年来随着机器学习威廉希尔官方网站的发展，以机器学习模型逐渐成为文档处理的主流方法。研究者设计功能模板以了解不同功能的权重，进而理解和分析文档的内容和布局。

基于机器学习的文档分析过程通常分为两个阶段:
1)对文档图像进行分割，获得多个候选区域;
2)对文档区域进行分类和区分，如文本块和图像。

尽管带注释的数据被用于监督学习，并且以前的方法可以带来一定程度的性能改进，但是由于缺乏定制规则和训练样本数量，通用性仍然不令人满意。此外，不同类型文档的迁移和适应成本相对较高，这使得以前的方法不适合广泛的商业应用。

第三阶段:深度学习阶段

随着深度学习的发展和大量未标注电子文档的积累，可以通过工具HTML/XML提取、PDF解析器、OCR等提取不同类型的文档中的内容，其文本内容、布局信息和基本图像信息等基本组织良好,然后对大规模深度神经网络进行预训练和微调，以完成各种下游文档AI任务.包括文档布局分析、视觉信息提取、文档视觉问答和文档图像分类等。现有的基于深度学习的智能文档模型主要分为两大类:

针对特定任务的深度学习模型

支持各种下游任务的通用预训练模型

DocumentAI的主要任务

Document AI在我们现实的应用场景主要有以下四类任务:

Document Layout Analysis

该任务主要是对文档布局中的图像、文本、表格、图等位置关系进行自动分析、识别、理解的过程.主要分为两个主任务:Visual analysis 与Semantic analysis.Visual analysis为视觉元素的分析,主要目的是检测文档的结构,确定相似区域的边界,而Semantic analysis为语义分析检测区域识别特定的文档元素,例如标题、段落、表格等。

Visual Information Extraction

该任务从文档中的大量非结构化内容中提取实体及关系.对于视觉丰富的文档建模为计算机视觉问题，通过语义分割或文本框检测来进行信息提取,将文档图像视为像素网格，将文本特征添加到视觉特征图中。根据文本信息的粒度，该任务从字符级发展到单词级，再发展到上下文级。

Document Visual Question Answering

该任务为通过判断识别文本的内部逻辑来回答关于文档的自然语言问题。文档VQA中的文本信息在任务中起着至关重要的作用，现有的有代表性的方法都是以文档图像的OCR获取的文本作为输入。获得文档文本后，将VQA任务建模为不同的问题.主流方法将其建模为机器阅读理解(MRC)问题,根据问题从给定文档中提取文本片段作为相应的答案。

Document Image Classiﬁcation

该任务是对文档图像进行分析和识别，并将其划分为不同类别的过程，如科学论文、简历、发票、收据等。最早文档图像分类问题的方法与自然图像分类方法基本一样,例如基于CNN的文档图像分类方法使用经过ImageNet训练的Alexnet作为初始化对文档图像进行模型适配。

下图为作者整理的四大Task的Benchmark:

Document AI 主流模型

Documents layout analysis with convolutional neural networks

文档布局分析可以看作是对文档图像进行目标检测的任务。将文档中的标题、段落、表格、图表等基本单元是需要检测和识别的对象。Yang等人将文档布局分析作为像素级的分割任务，利用卷积神经网络进行像素分类，取得了较好的效果.

Visual information extraction with graph networks

对于视觉信息丰富的文档的结构不仅仅由文本内容的结构决定,与布局、排版、格式、表/图结构等视觉元素同样相关.例如收据、证书、保险文件等.Liu等人提出的利用图卷积神经网络建模视觉元素丰富的文档,首先通过OCR系统获得一组Text Blocks,每一个Text Block包含其在图像中与文本内容的坐标信息,将其构成一个完全连通的有向图,即每个Text Blocks构成一个节点,通过Bi-LSTM获取节点的初始特征,边的初始特征是相邻文本块与当前文本块之间的相对距离以及这两个文本块的长宽比。对“节点-边缘-节点”三元特征集进行卷积,实验表明，视觉信息发挥了主要作用，增加了文本识别相似语义的能力,对视觉信息也起到一定的辅助作用。

General-purpose multimodal pre-training with the transformer

文本块的空间关系通常包含丰富的语义信息。例如,在表格中本块通常以网格布局排列，标题通常出现在第一列或第一行。不同文档类型之间的布局不变性是通用预训练的一个关键属性。通过预训练与文本自然对齐的位置信息可以为下游任务提供更丰富的语义信息。对于视觉信息丰富的文档,其视觉信息如字体类型、大小、样式等明显的视觉差异，其可以通过视觉编码器提取出来，结合到预训练阶段，从而有效地改善下游任务。为了利用布局和视觉信息，2020年Xu提出通用文档预训练模型LayoutLM，在已有预训练模型的基础上，增加了2-Dposition embedding 和image embedding.首先根据OCR得到的文本边界框得到文本在文档中的坐标。将对应的坐标转换为虚坐标后，模型计算出x、y、w、h四个embedding sublayers对应的坐标表示，最终的二维位置嵌入是四个子层的embedding之和。在imageembedding 中，模型将每个文本对应的边框作为Faster R-CNN,提取相应的局部特征。特别是，由于[CLS]符号用于表示整个文档的语义，因此模型还使用整个文档的image作为image embedding以保持多模态对齐,Layout模型在三个下游任务，表单理解，票据理解，文档图像分类，都取得了显著的准确率提升。

LayoutLM的两个自监督预训练任务Masked Visual-Language :随机mask除了2D postionembedding,以及其他文本的text embdedding,让模型预测mask的 token.Task2:Multi-Label Document Classiﬁcation:在给定一组扫描文档的情况下，利用文档标签对训练前的过程进行监督，使模型能够对来自不同领域的知识进行聚类，生成更好的文档级表示.该模型的相关实验表明，利用布局和视觉信息的预训练可以有效地转移到下游任务中。

小结

除了这篇文章介绍的之外LayoutLM等经典模型，最近DocumentAI的研究工作中几个后起之秀也非常值得关注。例如LayouLM后出现的LayoutLMv2以及LayoutXML，将跨模态对齐的思路贯彻在模型训练的过程中。不仅仅利用文本和布局信息，将图像信息也融合到文档多模态的框架内。除此之外，跨模态文档理解模型ERINE-Layout，提出阅读顺序预测和细粒度图文匹配两个与训练任务，除了跨模态予以对齐能力外，增加了布局理解能力。我们可以看到，在预训练时代下，DocumentAI正在逐渐向“多模态文档理解”方向前进，从模态之间的对齐到预测，DocumentAI将会怎样找寻可以建模的更多元素，挖掘视觉与文本、布局之间的精细关系，变得更加值得期待了。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3236

浏览量
48822
机器学习

机器学习

+关注

关注
66

文章
8412

浏览量
132600
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24694

原文标题：MSRA-万字综述直击多模态文档理解

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

NVIDIA文本嵌入模型NV-Embed的精度基准

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试（MTEB）涵盖 56 项嵌入任务。

发表于 08-23 16:54 •1983次阅读

NVIDIA文本嵌入<b class='flag-5'>模型</b>NV-Embed的精度<b class='flag-5'>基准</b>

【大语言模型：原理与工程实践】大语言模型的评测

在知识获取、逻辑推理、代码生成等方面的能力。这些评测基准包括语言建模能力、综合知识能力、数学计算能力、代码能力和垂直领域等多个维度。对于微调模型，对话能力的评测关注模型在对话任务中的全

发表于 05-07 17:12

请问NanoEdge AI数据集该如何构建？

我想用NanoEdge来识别异常的声音，但我目前没有办法生成模型，我感觉可能是数据集的问题，请问我该怎么构建数据集？或者生成

发表于 05-28 07:27

高阶API构建模型和数据集使用

了TensorFlow2.0Beta版本，同pytorch一样支持动态执行(TensorFlow2.0默认eager模式，无需启动会话执行计算图)，同时删除了杂乱低阶API，使用高阶API简单地构建复杂神经网络模型，本文主要分享用高阶API构建模型和

发表于 11-04 07:49

一个深度学习模型能完成几项NLP任务？

对于机器翻译、文本摘要、Q&A、文本分类等自然语言处理任务来说，深度学习的出现一遍遍刷新了state-of-the-art的模型性能记录，给研究带来诸多惊喜。但这些任务一般都有各自的度量基准

发表于 06-26 15:19 •4603次阅读

基于不均衡医学数据集的疾病预测模型

基于不均衡医学数据集的疾病预测模型

发表于 06-15 14:15 •9次下载

基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型

发表于 06-20 15:39 •1828次阅读

大模型如何快速构建指令遵循数据集

：instruction-tuned方法是指利用非常多的指令数据【人类instructions指令和respond回答数据】去finetuned LLM模型，让模型能够理解人类指令，训

发表于 06-27 16:56 •2927次阅读

如何构建高质量的大语言模型数据集

构建高质量的大语言模型数据集是训练强大自然语言处理模型的关键一步。以下是一些关键步骤和考虑因素，有助于创建具有多样性、准确性和时效性的数据

发表于 09-11 17:00 •1601次阅读

大模型数据集：构建、挑战与未来趋势

随着深度学习威廉希尔官方网站的快速发展，大型预训练模型如GPT-4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集，为模型

发表于 12-06 15:28 •1807次阅读

大模型数据集：突破边界，探索未来

随着人工智能威廉希尔官方网站的快速发展，大型预训练模型如GPT-4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集，为模型

发表于 12-06 16:10 •645次阅读

大模型数据集：力量的源泉，进步的阶梯

一、引言在的繁荣发展中，大模型数据集的作用日益凸显。它们如庞大的知识库，为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型

发表于 12-07 17:18 •681次阅读

大模型数据集：揭秘AI背后的魔法世界

一、引言在人工智能的奇幻世界中，大模型数据集如同神秘的魔法书，蕴藏着无尽的智慧与力量。它们为AI注入了生命，使其具备了理解和改变世界的能力。今天，就让我们一起揭开大模型

发表于 12-07 17:33 •561次阅读

如何评估AI大模型的效果

评估AI大模型的效果是一个复杂且多维度的过程，涉及多个方面的考量。以下是一些关键的评估方法和步骤：一、基准测试（Benchmarking）使用标准数据集和

发表于 10-23 15:21 •873次阅读

AI大模型的训练数据来源分析

学术机构、政府组织或企业公开发布，涵盖了各种类型的数据，如图像、文本、音频、视频等。例如： ImageNet ：一个广泛用于图像识别任务的大规模图像数据集。 Common Crawl

发表于 10-23 15:32 •577次阅读

搜索历史

DocumentAI的模型、任务和基准数据集

评论

NVIDIA文本嵌入模型NV-Embed的精度基准

【大语言模型：原理与工程实践】大语言模型的评测

请问NanoEdge AI数据集该如何构建？

高阶API构建模型和数据集使用

一个深度学习模型能完成几项NLP任务？

基于不均衡医学数据集的疾病预测模型

基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

大模型如何快速构建指令遵循数据集

如何构建高质量的大语言模型数据集

大模型数据集：构建、挑战与未来趋势

大模型数据集：突破边界，探索未来

大模型数据集：力量的源泉，进步的阶梯

大模型数据集：揭秘AI背后的魔法世界

如何评估AI大模型的效果

AI大模型的训练数据来源分析