导读对大型多模态模型 (LMMs) 来说,阅读能力至关重要。阅读能力不仅包括阅读纯文本,还涉及位置定位、结构化布局以及格式化输入和输出。LMMs 可使用自然语言指令和图像作为提示来统一这些阅读能力,这对全面的评估多模态大模型的OCR能力提出了更高的要求。
图1. CC-OCR 的任务类型示例
最近的基准:
本文提出的基准
模型选择
专家模型:
实证发现
有趣见解:
Introduction
图2. OCR任务的挑战
图3. CC-OCR 的任务分类
多场景文本阅读。当前用于评估 LMMs 的 OCRBench 主要关注行粒度识别。DocLocal4K 和 FOX 主要从文档图像中整理数据。CC-OCR多场景 OCR 赛道总共包含 2750 张图像,分为三个子集:自然场景、文档和 UGC 图像 OCR,每个子集分别有 1850、350 和 550 个样本。所有子集都包含中文和英文脚本。对于自然场景 OCR,图像从学术数据集(TotalText、IC15、InverseText 和 HierText)和我们自己收集的数据中精心挑选。对于文档 OCR,图像主要从我们自己收集的各种类型的文档中挑选,包括印刷文档、现实拍摄的文档、手写文档等。对于网页图像 OCR,我们选择来自文本丰富的网站截图和用户生成内容(UGC)图像。
图4:不同来源的数据分布
多语言文本阅读。强调跨多种语言的文本识别能力。相关的多语言评估数据集稀缺,尤其是针对整个图像的数据集。MLT 2019 广泛用于多语言文本阅读,提供了多种语言文本的多样化图像集。MTVQA 通过问答 (QA) 对整合视觉和文本推理,增加了评估的复杂性。然而,它缺乏全面的 OCR 注释,主要关注 QA 对,这限制了其在 OCR 任务中的实用性。CC-OCR多语言 OCR 赛道总共包含 1500 张图像,每种语言有 150 个样本。该赛道包括两种东亚语言(日语和韩语)、六种基于拉丁字母的语言(法语、德语、意大利语、西班牙语、葡萄牙语和越南语)、一种基于西里尔字母的语言(俄语)和一种基于阿拉伯字母的语言(阿拉伯语)。与多场景 OCR 赛道类似,图像从各种场景中挑选,包括自然场景、文档和手写图像。
图5:不同语言的数据分布
文档解析。涵盖了多种场景和任务,包括公式识别、表格 和图表分析、元素检测 和布局分析。大多数 LMMs 仅在扫描文档上评估其识别能力,忽略了现实世界文档中常常包含大量的复杂噪声,如阴影、不同的光照条件、折叠、材料纹理和多样化的背景。这些因素对文本内容和结构识别提出了重大挑战,并限制了当前模型的鲁棒性。CC-OCR 基准包括扫描和拍照文档。CC-OCR文档解析赛道总共包含 800 张图像,其中 150 个样本为印刷文档,150 个样本为现实拍摄的样本,300 个样本为表格解析,100 个样本为数学表达式识别,100 个样本为分子公式识别。文档图像包含多种元素,包括图表、表格和数学表达式。
图6:不同格式的数据分布
关键信息提取。目前,KIE 数据可以分为两类,受限类别和开放类别数据集,取决于要提取的关键是否是预定义的。对于受限 KIE,给出了要提取的目标类别。有可用的公共数据集,如 SROIE、CORD、EPHOIE 和 POIE。这些基准还提供了端到端表示(即字典形式),可以用于评估大型模型。SIBR 和 HUST-CELL 是典型的开放类别基准,其结构由实体和各种类型的实体链接表示。因此,这种注释格式不能直接用于评估大型模型。CC-OCR 重新注释了这两个数据集,统一了整个 KIE 基准的注释格式。CC-OCR关键信息提取赛道总共包含 2008 张图像,分为两组:受限类别子集包含 1008 张图像,开放类别子集包含 1000 张图像。受限类别子集包括 347 张 SROIE 图像、100 张 CORD 图像、311 张 EPHOIE 图像和 250 张 POIE 图像。EPHOIE 数据为中文,其他为英文。1000 张图像的开放类别集,即 COLD-KIE 数据,包含 400 张来自 SIBR 的图像和 1426 张来自 HUST-CELL 的图像(过滤掉纯表格图像后剩余的),包含中文和英文。所有数据中,英文与中文的比例为 1:1.48。
表1. 评估 LMMs 的不同基准的比较
Analysis
图7. 各模型在四个赛道和整体性能上的比较分析
对于 OCR 评估,采用与 TextMonkey 类似的评估指标,即 Eval-Trans 和 Eval-Pos,用于文本序列和位置序列。鉴于大多数大型模型的定位能力有限,在主要实验中主要使用 Eval-Trans。对于文档解析和公式识别,我们使用归一化编辑距离 (NED) 进行评估。对于表格解析,我们使用基于树编辑距离的相似度 (TEDS) 。对于关键信息提取,遵循之前的工作使用字段级 F1 分数进行评估。
总体评估结果如图7所示。可以看出,Gemini-1.5-Pro 以 73.0 的平均分位居榜首,并在三个赛道中获得第一。Qwen-VL-Max 总体排名第二,平均分为 68.7,并且在 KIE 赛道中排名第一。此外,从结果中可以明显看出,通用模型往往比专门模型表现更好。
表8. 多场景 OCR 赛道数据上 LMMs 的重复幻觉。Rrep 表示重复率
大多数大型模型在预测时倾向于产生重复文本形式的幻觉。因此,本文提出通过测量产生重复输出的图像数量与总图像数量的比例来设计重复率 Rrep。重复性能如表8所示。我们观察到,通用 LMMs 产生的重复结果比专门方法少。在所有模型中,Claude-3.5-Sonnet 的重复率最低,只有千分之一的图像出现重复输出。
点评
近期关于多模态大模型应用于OCR场景的评估数据集密集的出现,说明这个方向非常的火热,因为OCR涉及的应用场景非常的多,想全面的评估一个多模态大模型的OCR能力确实挺 难的,这类评估基准的出现也能恰到好处的给从业人员提供非常好的指导。从这个新的基准上来看,SOTA模型的OCR能力还有不少的提升空间。