您的位置:首页 > 互联网

学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转「ocr math」

发布时间:2023-08-30 17:45:12  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、梓文,授权转载发布。

我们平时在阅读论文或者科学文献时,见到的文件格式基本上是 PDF(Portable Document Format)。据了解,PDF 成为互联网上第二重要的数据格式,占总访问量的2.4%。

然而,存储在 PDF 等文件中的信息很难转成其他格式,尤其对数学公式更是显得无能为力,因为转换过程中很大程度上会丢失信息。就像下图所展示的,带有数学公式的 PDF,转换起来就比较麻烦。

现在,Meta AI 推出了一个 OCR 神器,可以很好的解决这个难题,该神器被命名为 Nougat。Nougat 基于 Transformer 模型构建而成,可以轻松的将 PDF 文档转换为 MultiMarkdown,扫描版的 PDF 也能转换,让人头疼的数学公式也不在话下。

  • 论文地址:https://arxiv.org/pdf/2308.13418v1.pdf

  • 项目主页:https://facebookresearch.github.io/nougat/

Nougat 不但可以识别文本中出现的简单公式,还能较为准确地转换复杂的数学公式。

公式中出现的上标、下标等各种数学格式也分的清清楚楚:

日本kddi电信公司

Nougat 还能识别表格:

扫描产生畸变的文本也能处理:

不过,Nougat 生成的文档中不包含图片,如下面的柱状图:

看到这,网友纷纷表示:(转换)效果真是绝了。

方法概述

游匣g15是游戏本吗

本文架构是一个编码器 - 解码器 Transformer 架构,允许端到端的训练,并以 Donut 架构为基础。该模型不需要任何 OCR 相关输入或模块,文本由网络隐式识别。该方法的概述见下图1。

该研究用到了2个 Swin Transformer ,一个参数量为350M,可处理的序列长度为4096,另一参数量为250M,序列长度为3584。在推理过程中,使用贪婪解码生成文本。

在图像识别任务中,使用数据增强技术来提高泛化能力往往是有益的。由于本文只研究数字化的学术研究论文,因此需要使用一些变换来模拟扫描文件的不完美和多变性。这些变换包括侵蚀、扩张、高斯噪声、高斯模糊、位图转换、图像压缩、网格变形和弹性变换 。每种变换都有固定的概率应用于给定的图像。这些变换在 Albumentations 库中实现。在训练过程中,研究团队也会通过随机替换 token 的方式,对实际文本添加扰动。

每种变换的效果概览

数据集构建与处理

据研究团队所知,目前还没有 PDF 页面和相应源代码的配对数据集,因此他们从 arXiv 上开放获取的文章中创建了自己的数据集。为了数据多样性,数据集中还包括 PubMed Central (PMC) 开放访问非商业数据集的一个子集。预训练期间,还加入了部分行业文档库 (IDL)。

表1数据集构成

在处理数据集的过程中,研究团队也将不同来源的数据进行了合适的处理,下图展示了他们对 arXiv 文章进行源代码收集并编译 PDF 的过程。详细内容请阅读全文。

源文件被转换成 HTML,然后再转换成 Markdown。

研究团队根据 PDF 文件中的分页符分割 markdown 文件,并将每个页面栅格化为图像以创建最终配对的数据集。在编译过程中,LaTeX 编译器自动确定 PDF 文件的分页符。由于他们不会为每篇论文重新编译 LaTeX 源文件,因此必须将源文件分割成若干部分,分别对应不同的页面。为此,他们使用 PDF 页面上的嵌入文本,并将其与源文本进行匹配。

但是,PDF 中的图形和表可能并不对应于它们在源代码中的位置。为了解决这个问题,研究团队使用 pdffigures2在预处理步骤中删除这些元素。将识别出的字幕与 XML 文件中的字幕进行比较,根据它们的 Levenshtein 距离进行匹配。一旦源文档被拆分为单独的页面,删除的图形和表就会重新插入到每一页的末尾。为了更好地匹配,他们还使用 pylatexence -library 将 PDF 文本中的 unicode 字符替换为相应的 LaTeX 命令。

词袋匹配:首先,研究团队使用 MuPDF 从 PDF 中提取文本行,并对其进行预处理,删除页码和页眉 / 页脚。然后使用词袋模型与 TF-IDF 向量化器和线性支持向量机分类器。将模型拟合到以页码为标签的 PDF 行。然后,他们将 LaTeX 源代码分成段落,并预测每个段落的页码。理想情况下,预测将形成阶梯函数,但在实践中,信号将有噪音。为了找到最佳边界点,他们采用类似于决策树的逻辑,并最小化基于 Gini 不纯度的度量:

其中

ocr math

是在区间 [a,b] 中选择具有预测页码 i 的元素的概率,该区间描述了哪些段落 (元素) 被考虑用于分割。

天猫精灵 电视台

区间 [a, b] 的最佳拆分位置 t 为:

谷歌取消员工offer

搜索过程从所有段落开始,对于后续的每个分页,搜索区间的下界设置为前一个分页位置。

模糊匹配:在第一次粗略的文档分割之后,研究团队尝试找到段落中的准确位置。通过使用 fuzzysearch 库,将预测分割位置附近的源文本与嵌入的 PDF 文本的前一页的最后一个句子和下一页的第一个句子进行比较,就可以达到这个目的。如果两个分隔点在源文本中的相同位置,则认为换页是准确的,得分为1。另一方面,如果分割位置不同,则选择具有最小归一化 Levenshtein 距离的分割位置,并给出1减距离的分数。要包含在数据集中,PDF 页面的两个分页符的平均得分必须至少为0.9。如此一来,所有页面的接受率约为47%。

实验

ocr math

实验中用到的文本包含三种类别:纯文本、数学表达式以及表格。

结果如表1所示。Nougat 优于其他方法,在所有指标中取得最高分,并且具有250M 参数模型的性能与350M 参数模型相当。

下图为 Nougat 优对一篇论文的转换结果:

Meta 表示,Nougat 在配备 NVIDIA A10G 显卡和24GB VRAM 机器上可并行处理6个页面,生成速度在很大程度上取决于给定页面上的文本量。在不进行任何推理优化的情况下,基础模型每批次平均生成时间为19.5s(token 数≈1400),与经典方法(GROBID10.6PDF/s )相比速度还是非常慢的,但 Nougat 可以正确解析数学表达式。


返回网站首页

本文评论
MAXAR 30 cm HD卫星影像产品优惠活动月
  MAXAR 公司是全球商业遥感卫星影像的领导者,其卫星影像是目前商业市场上分辨率最高、精度最高的遥感卫星影像,以其图像清晰,精度高,采集灵活等优势在国土测绘,城市管理,工程...
日期:02-18
iPhone 14最快降价:速度破纪录「iphone13出来12降价幅度」
iPhone 14全系开始之后,标准版的两款机型都已经在线下破发,即便有灵动岛,4800万像素等重磅升级的加持,Pro版的两款机型在发售之后溢价也在快速下降,部分型号和颜色在线下已经有原...
日期:10-18
小米12S Pro闪降900元!雷军:优惠力度最大_小米12pro系列什么时候出
雷军透露,小米公司旗下的小米12S Pro近日在京东自营店推出优惠,价格降至3299元,降幅高达900元。chrome消息推送功能三星玄龙骑士显示器评测折叠屏手机发布时间据了解,这款手机是...
日期:06-02
同时为多个设备无线充电?华为新专利公布「华为多设备无线充电板」
凤凰网科技讯9月29日消息,天眼查App显示,近日华为技术有限公司申请的“一种充电方法、无线充电设备及相关设备”专利公布。下一代苹果promax会有什么升级乐视手机业务图源:天...
日期:10-04
网信办:加快建设数字中国 深入推进5G网络、千兆光网规模化部署和应用
2023/5/23 11:00 网信办:加快建设数字中国 深入推进5G网络、千兆光网规模化部署和应用  颜翊 C114讯 5月23日消息(颜翊)国家互联网信息办公室会同有关方面系统总结2022年...
日期:05-25
思维造物终止IPO,是“最好的安排”吗?_思维造物上市进展
iphone前置摄像头高清和720p戴森空气净化冷暖风扇使用说明图片来源:东方IC汇立银行 welab   8月2日,得到母公司思维造物的A股上市路最终停在这一天。对于撤回上市申请,罗振宇...
日期:08-06
网易云音乐首款音乐社交App MUS正式开放注册「网易云音乐APP」
  9月27日,网易云音乐首款音乐社交App MUS正式开放注册。苹果ios16出了吗...
日期:09-28
快手小店开放电动三轮车、电动四轮车与老年代步车类目「淘宝网老年代步车电动三轮车」
12月23日 消息:快手电商发布公告称,为了更好地推进平台行业生态发展,提升用户购物体验,快手小店将开放【自行车/电动车/摩托车】>>【电动车/摩托车】类目下【电动三轮车】、【...
日期:12-23
马斯克推特最新新闻「推特管理层大洗牌 马斯克需向三名被解雇高管支付逾2亿美元」
10月28日消息,据国外媒体报道,在马斯克27日晚间完成对推特的收购后,一上任就将管理层大洗牌,解雇多名推特原高管。据知情人士透露,推特原首席执行官帕拉格•阿格拉瓦尔(Parag Agra...
日期:10-30
蔚来9月份交付10878辆电动汽车 今年已交付超过8.2万辆「1-11月,蔚来累计交付新车17395台」
10月1日消息,在理想、极氪、哪吒汽车、AITO、广汽埃安相继公布9月份电动汽车的交付量之后,蔚来汽车也公布刚刚过去的这一个月的交付量。小米插排众筹蔚来汽车官微公布的消息显...
日期:10-02
网络犯罪一年案值1140亿美元 超过毒品走私总额_2018年全国共破获毒品犯罪案多少起
  9月7日下午消息,赛门铁克的一项最新研究显示,全球网络犯罪过去一年的案值高达1140亿美元。   赛门铁克在《诺顿网络犯罪报告2011》中表示,过去一年间,全年有4.31亿成年人...
日期:07-22
M2 Pro、Max图形处理器跑分曝光:较前代提升34.1% 媲美M1 Ultra
前两天苹果低调发布了新款MacBook 14/16笔记本,主要是升级了M2 Pro、M2 Max处理器,昨日搭载M2 Pro的MacBook处理器跑分首次曝光之后,苹果表示,M2 Pro的 CPU 性能比 M1 Pro 最多...
日期:01-22
支付宝全新升级小程序码 取消页面配置张数限制
12月20日 消息:支付宝开放平台宣布,【小程序码】产品全新升级,助力商家抢抓线下商机,满足更多业务诉求并提升获客效率。据悉,商家可配置生成异形码(圆形)或通码(方形),用户使用支付...
日期:12-20
芒果超媒:芒果TV已与小鹏汽车等车企展开会员领域相关合作_芒果超媒主要业务
证券时报e公司讯,芒果超媒(300413)在互动平台表示,芒果TV已与小鹏汽车等车企展开会员领域相关合作,共同探索车载屏视频娱乐服务。广泛携手智能汽车平台是芒果TV会员权益服务的...
日期:08-17
19999元 三星新款57寸显示器上架:双4K 240Hz屏
快科技8月19日消息,三星新款玄龙骑士Neo G9(G95NC)显示器现已上架,57英寸双4K 240Hz带鱼屏规格,首发19999元。这款显示器分辨率为7680 x 2160,32:9超宽屏,搭配mini LED背光,2393背光...
日期:08-19
DeepMind研究减少大型语言模型“阿谀奉承”行为
本文概要:1. 大型语言模型容易出现阿谀奉承行为,即模型会修改其响应以与用户观点一致,即使该观点不正确。2. 研究人员使用简单的合成数据干预技术成功地减少了阿谀奉承行为。3...
日期:08-14
抖音上线“抖音星球”小程序:可帮助创作者发展更多粉丝(抖音如何添加小程序)
  10 月 3 日消息 据 Tech 星球,抖音在近期上线了一款名为“抖音星球”的小程序,可帮助抖音创作者搭建自己的私域流量,发展更多的粉丝。   抖音星球的入口位于创作者抖音...
日期:07-17
AOL CEO向该公司全体雇员发出备忘录详解裁员计划及未来战略
  北京时间3月11日消息,AOL周四宣布裁员900余人,占该公司雇员总数的20%。在这些雇员中,有700多人来自印度,其余则来自美国。   AOL CEO蒂姆·阿姆斯特朗(Tim Armstrong)今天...
日期:07-26
腾讯爆款预定!《庆余年》第二季首发剧照出炉:原班人马基本回归
5月中旬,诸多观众期待的《庆余年》第二季宣布开机,今日,庆余年官微”发布第二季首发剧照,张若昀、陈道明、李沁、吴刚、郭麒麟等人亮相。据了解,除上述几人外,田雨、李小冉、宋轶...
日期:07-09
华为轮值董事长和任正非「徐直军当值华为轮值董事长」
9 月 30 日讯:华为官网发布公告称,根据公司轮值董事长制度, 2022 年 10 月 1 日~ 2023 年 3 月 31 日期间由徐直军当值轮值董事长。轮值董事长在当值期间是公司最高领袖,主持公...
日期:10-01