实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？-369IT编程

admin管理员组
文章数量:1033248

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

3月上旬，法国一家AI独角兽公司进军OCR（光学字符识别）领域，发布了一个号称“全世界最好的OCR”产品，根据其技术团队的说明，这款OCR产品具备优秀的准确度和认知能力，能够理解文档的每个元素（包括文本、表格、公式等），从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样，这款产品（下文中简称为“A产品”）旨在对AI难以直接识别的复杂文档进行解析处理，提升类似RAG等文档场景下的AI应用性能。

产品文档中介绍了它的几项优势：

对复杂文档实现SOTA理解：擅长理解复杂的文档元素，包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件，如带有图表、图形、公式和数字的科学论文。
基准测试成绩第一：在严格的基准测试中始终优于其他领先的 OCR 模型，其在文档分析的多个方面都表现出色。
支持原生多语言：能够解析、理解和转录各大洲的数千种脚本、字体和语言，便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。

A产品发布后，全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下，A产品获得的评价也各有不同。如下图中的推文表示，在中文样本测试中，A产品的表现没有显著优势。也有AI团队认为，A产品超越了一些前沿LLM的OCR性能，但尚未完全为企业使用做好准备。

在实际生产环境中，A产品表现是否出色？它的中文文件处理性能与国内产品相较如何？

面对这些问题，TextIn测试团队进行了一次针对性测试，基于丰富的真实样本，全方面评测OCR产品能力。

测评指标

测评指标中分了6个维度，针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

指标	说明
标题F1	2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)其中：标题识别率=标题匹配的个数（标题编辑距离小于0.2） / 预测出的总标题数标题召回率=标题匹配的个数（标题编辑距离小于0.2）/ 总的标题数
段落F1	2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
文本编辑距离	1-文本编辑距离（med）
版面阅读顺序	计算预测值和真值中，所有匹配段落的编辑距离
公式F1	2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
表格文本识别率	文本全对的表格个数（pred）/ 总表格个数（gt）
表格结构TEDS	所有表格树编辑距离分数之和（pred，不包含文字）/ 总表格数量（gt）
表格综合TEDS	所有表格树编辑距离分数之和（pred，包含文字）/ 总表格数量（gt）

测试数据集

本次测试基于实际生产环境中的多类型文件样本，包含PDF扫描文件、图像与电子文件，包含印刷、手写字体，语言以英语、中文为主，文件种类涵盖学术、商业、教育等场景，具体种类及数量如下图所示。

测试文件种类	样本数量	测试文件种类	样本数量
学术论文	20	企业招股招股书	20
金融年报	20	金融研报	20
招投标文件	20	英语手写文件	11
合同文件	20	K12试卷	14
电子书	20	国家标准文件	20
教育题库	20	中文专利文件	20
ESG报告	20	简历	20
少线表格	20	传统表格	20
银行承兑汇票	20	增值税发票	20

测试结论

测试团队对A产品与TextIn文档解析工具开展对比测试，各项指标测试结果如下图所示。

整体而言，TextIn文档解析在各项指标上表现良好，其中表格解析能力较为突出，公式识别相对一般；A产品在英文论文、英文PDF扫描文档等文件类型上识别效果较好，中文以及手写性能一般，整体技术能力在中文环境及商业文件复杂样本下存在薄弱项。

其中：

表格识别存在缺陷，不支持合并单元格，对无线表无法正确识别；
文本如果带旋转角度，识别错误比较严重，会出现明显幻觉；
卡证票据、复杂背景、复杂版式（例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。

具体案例

英语科学论文

原文件

A产品识别结果可视化

TextIn识别结果可视化

如图中识别结果可见，对于英语科学论文样本，A产品和TextIn都可以正确识别标题与文本，其中A产品能完全准确解析复杂数学表达式，而TextIn解析的公式存在细微误差。

中文表单

原文件

A产品识别结果可视化

TextIn识别结果可视化

对于中文少线表单，TextIn能够正确解析，A产品则无法识别表格结构。

英语表格

原文件

A产品识别结果可视化

TextIn识别结果可视化

对于英语复杂表格，A产品出现乱码、合并单元格错误等问题，TextIn正确识别特殊符号与合并单元格，但两者都没有准确识别表格中的旋转字体。

中文手写样本

原文件

A产品识别结果可视化

TextIn识别结果可视化

对于试卷样本，A产品和TextIn都能正确解析试卷中的印刷体，但无法保证较为模糊的手写字体完全正确，其中，TextIn能够识别部分手写字体，A产品则缺少手写解析结果。

通过实测对比，我们可以更清晰地评估国内外前沿文档解析产品的技术优劣势，便于用户完成技术选型。

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

产品文档中介绍了它的几项优势：

对复杂文档实现SOTA理解：擅长理解复杂的文档元素，包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件，如带有图表、图形、公式和数字的科学论文。
基准测试成绩第一：在严格的基准测试中始终优于其他领先的 OCR 模型，其在文档分析的多个方面都表现出色。
支持原生多语言：能够解析、理解和转录各大洲的数千种脚本、字体和语言，便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。

在实际生产环境中，A产品表现是否出色？它的中文文件处理性能与国内产品相较如何？

面对这些问题，TextIn测试团队进行了一次针对性测试，基于丰富的真实样本，全方面评测OCR产品能力。

测评指标

测评指标中分了6个维度，针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

指标	说明
标题F1	2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)其中：标题识别率=标题匹配的个数（标题编辑距离小于0.2） / 预测出的总标题数标题召回率=标题匹配的个数（标题编辑距离小于0.2）/ 总的标题数
段落F1	2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
文本编辑距离	1-文本编辑距离（med）
版面阅读顺序	计算预测值和真值中，所有匹配段落的编辑距离
公式F1	2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
表格文本识别率	文本全对的表格个数（pred）/ 总表格个数（gt）
表格结构TEDS	所有表格树编辑距离分数之和（pred，不包含文字）/ 总表格数量（gt）
表格综合TEDS	所有表格树编辑距离分数之和（pred，包含文字）/ 总表格数量（gt）

测试数据集

测试文件种类	样本数量	测试文件种类	样本数量
学术论文	20	企业招股招股书	20
金融年报	20	金融研报	20
招投标文件	20	英语手写文件	11
合同文件	20	K12试卷	14
电子书	20	国家标准文件	20
教育题库	20	中文专利文件	20
ESG报告	20	简历	20
少线表格	20	传统表格	20
银行承兑汇票	20	增值税发票	20

测试结论

测试团队对A产品与TextIn文档解析工具开展对比测试，各项指标测试结果如下图所示。

其中：

表格识别存在缺陷，不支持合并单元格，对无线表无法正确识别；
文本如果带旋转角度，识别错误比较严重，会出现明显幻觉；
卡证票据、复杂背景、复杂版式（例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。

具体案例

英语科学论文

原文件

A产品识别结果可视化

TextIn识别结果可视化

中文表单

原文件

A产品识别结果可视化

TextIn识别结果可视化

对于中文少线表单，TextIn能够正确解析，A产品则无法识别表格结构。

英语表格

原文件

A产品识别结果可视化

TextIn识别结果可视化

对于英语复杂表格，A产品出现乱码、合并单元格错误等问题，TextIn正确识别特殊符号与合并单元格，但两者都没有准确识别表格中的旋转字体。

中文手写样本

原文件

A产品识别结果可视化

TextIn识别结果可视化

通过实测对比，我们可以更清晰地评估国内外前沿文档解析产品的技术优劣势，便于用户完成技术选型。

本文标签：实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何

版权声明：本文标题：实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748022583a2242720.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

测评指标

测试数据集

测试结论

具体案例

英语科学论文

中文表单

英语表格

中文手写样本

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

测评指标

测试数据集

测试结论

具体案例

英语科学论文

中文表单

英语表格

中文手写样本

更多相关文章

实测对比｜法国 AI 独角兽公司发布的“最强 OCR”，实测效果如何？

发表评论

推荐文章

我把AI接上了Figma、WhatsApp、浏览器……然后它开始自己动起来了！

OPC UA 的信息模型

JUC并发—1.Java集合包底层源码剖析一

MCP 协议深度解读：AI 架构的“USB

如何在 Java 中运行 shell 命令

热门文章

【第52节】Windows编程必学之从零手写C++调试器下篇(仿ollydbg)

大型集团国企HR软件选型经验分享之组织管理模块评

MindIE Torch快速上手

每个开发人员都应该知道的 7 种高级 JavaScript 技术

「开源版GPT

版本控制工具：使用Git的意义和笔记

ReLU 和 dropout 层在 CNN 中的工作原理

Spring Cloud 安全简介

Java为什么每一层都要定义接口和Impl？只是为了好看？

3个Agent多模态感知秘诀，让AI真正具备“思考+执行”能力！

最新文章

IDC微模块机房效果图制作

maya视口改变来激活脚本作业scriptjob？

[MYSQL] 服务器出现大量的TIME

异步读取HTTP响应体的Rust实现

文生图架构设计原来如此简单之用户界面架构

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow