您的位置:首页 > 互联网

文档字越多,模型越兴奋!KOSMOS-2.5:阅读文本密集图像的多模态大语言模型

发布时间:2023-09-28 13:19:49  来源:互联网     背景:


新智元报道

编辑:LRS 好困

【新智元导读】文字也是一种视觉信息,多模态大语言模型KOSMOS-2.5不光能读懂论文,还能输出markdown格式!

当前一个显著的趋势是致力于构建更大更复杂的模型,它们拥有数百/数千亿个参数,能够生成令人印象深刻的语言输出。

然而,现有的大型语言模型主要集中在文本信息上,无法理解视觉信息。

因此多模态大型语言模型(MLLMs)领域的进展旨在解决这一限制,MLLMs将视觉和文本信息融合到一个基于Transformer的单一模型中,使该模型能够根据这两种模态学习和生成内容。

MLLMs在各种实际应用中显示出潜力,包括自然图像理解和文本图像理解。这些模型利用语言建模作为处理多模态问题的通用接口,使其能够根据文本和视觉输入处理和生成响应。

不过,现有的MLLMs主要关注分辨率较低的自然图像,对于文本密集图像的MLLM研究还不多见,因此充分利用大规模多模态预训练来处理文本图像是MLLM研究的一个重要的研究方向。

通过将文本图像纳入训练过程并开发基于文本和视觉信息的模型,我们可以开辟涉及高分辨率文本密集图像的多模态应用的新可能性。

看雷军的发布会


论文地址:https://arxiv.org/abs/2309.11419

KOSMOS-2.5是一个基于文本密集图像的多模态大型语言模型,它是在KOSMOS-2的基础上发展而来的,突出了对于文本密集图像的多模态阅读和理解能力(Multimodal Literate Model)。

该模型的提出突显了其在理解文本密集型图像方面的卓越性能,弥合了视觉和文本之间的差距。

与此同时,它也标志着该任务范式的演变,从以前的编码器-解码器(encoder-decoder)架构转变为纯解码器(decoder only)架构。

KOSMOS-2.5的目标是在文本丰富的图像中实现无缝的视觉和文本数据处理,以便理解图像内容并生成结构化文本描述。


图1:KOSMOS-2.5概览图

如图1所示,KOSMOS-2.5是一个多模态模型,旨在使用统一的框架处理两个紧密相关的任务。

第一个任务涉及生成具有空间感知的文本块,即同时生成文本块的内容与坐标框;

第二个任务涉及以Markdown格式生成结构化的文本输出,同时捕捉各种样式和结构。


乐视TV·超级电视X60

图2:KOSMOS-2.5架构图

iPhone5s过时产品

如图2所示,两个任务利用共享的Transformer架构与任务特定的提示。

KOSMOS-2.5将基于ViT(Vision Transformer)的视觉编码器与基于Transformer架构的解码器相结合,通过一个重采样模块连接起来。


图3:预训练数据集

如图3所示,为了训练这个模型,作者准备一个庞大的共324.4M的数据集进行预训练。

联想冬季新品发布会


图4:带有边界框的文本行的训练样本示例


图5:Markdown格式的训练样本示例

该数据集包含各种类型的文本密集图像,其中包括带有边界框的文本行和纯文本的Markdown格式,图4和图5为训练样本示例可视化。

这种多任务的训练方法增强了KOSMOS-2.5在整体上的多模态能力。


[图6] 端到端的文档级文本识别实验


图7:从图像中生成Markdown格式文本实验

如图6和图7所示,KOSMOS-2.5在两个任务上进行评估:端到端的文档级文本识别和从图像中生成Markdown格式文本。

实验结果展示了KOSMOS-2.5在理解文本密集的图像任务方面的出色表现。


图8:KOSMOS-2.5的输入和输出样例展示

此外,KOSMOS-2.5在少样本学习和零样本学习的场景中展现了有前景的能力,使其成为处理文本丰富图像的实际应用的多功能工具。

作者指出,指令微调是一个很有前景的方法,可以实现模型更广泛的应用能力。

在更广泛的研究领域中,一个重要的方向在于进一步发展模型参数的扩展能力。

随着任务范围的不断扩大和复杂性的不断提高,扩展模型以处理更大量的数据对于文字密集的多模态模型的发展至关重要。

最终目标是开发出一种能有效解释视觉和文本数据的模型,并在更多文本密集型多模态任务中顺利推广。

参考资料:

https://arxiv.org/abs/2309.11419



返回网站首页

本文评论
车企付费订阅吃相太难看!“正义”黑客出手了
来源:快科技   近两年,视频平台在播放电视剧时,各种巧立名目,花式收费,像超前点播、二次收费等,引发不少吐槽。   不过这种付费才能享受的待遇,最近出现了“人传人”现象。  ...
日期:08-19
等了1年库克官宣:iPhone重磅功能即将上线!「库克信心不足!苹果将延后iPhone SE 4」
iPhone SE以更亲民的价格受到不少关注,不过即将到来的iPhone SE4可能要延期了。多年跟踪苹果产业链的分析师郭明发布最新调查称,苹果可能会取消或推迟预计2024年量产的iPhone...
日期:12-21
网购虾条居然收到了差评返现卡:主打的就是真诚
5月28日消息,微博话题网购虾条居然收到了差评返现卡”上了热搜榜。有博主分享了一张店家发来的差评卡:感觉虾条好吃就给好评,不返现;感觉不好吃,给差评返现。店家表示,不好吃必须...
日期:05-29
360智慧生活亮相安博会,展示5G+AIoT领域最新产品与技术优势
  6 月 7 日- 10 日,第十六届(2023)中国国际社会公共安全产品博览会(即“安博会”)在京举行。 360 智慧生活携视觉云业务、视觉云生态业务、海外业务、消费者业务旗下多款解决方...
日期:06-09
纯鸿蒙!华为HarmonyOS NEXT不再兼容安卓应用:APK彻底拜拜
快科技8月7日消息,近日,华为举行2023年华为开发者大会(HDC.Together)上,除了发布HarmonyOS 4、全新升级的鸿蒙开发套件外,华为还带来了HarmonyOS NEXT开发者预览版。据了解,Harmony...
日期:08-07
意大利jc「继短暂禁用 ChatGPT ,意大利监管机构审查其他AI系统」
5月23日 消息:一名高级官员表示,意大利数据保护局Garante计划审查其他人工智能平台,并聘请人工智能专家。该机构在3月份暂时禁止ChatGPT后,加强了对这项强大技术的审查。Garant...
日期:05-23
rx6800公版和非公版「RX 7600公版卡电源线翻车!AMD保证没事:又要手动打磨?」
快科技5月27日消息,AMD RX 7600公版卡被发现存在设计缺陷,8针辅助供电接口处的位置过于狭窄,导致部分带有卡扣、体积较大的6 2针电源线无法完全插入。AMD官方很快就此给出了一...
日期:05-28
联想s890怎么样「联想s820好吗」
联想S890是一款中端智能手机,已经上市多年,仍然备受关注。下面将从外观、配置、性能等多个方面来介绍联想S890的优点和缺点。外观方面,联想S890采用了经典的直板设计风格,手机背...
日期:05-31
平台扎推办弹幕互动交流会,娱乐直播新风口来了?「节目弹幕」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。弹幕互动直播的风,从年初刮到了现在,而且越吹越猛。近日,新播场发现,不少平台开始举办弹幕互动玩法的专场...
日期:08-07
百度地图智能语音助手叫什么_智能语音助手用户破3亿!百度地图语音战绩再下一城
  格外考验“出行姿势”的十一黄金周又来了!作为用户假期出行的“最佳伴侣”,百度地图也带来了金秋喜讯:截至10月1日18:00,百度地图智能语音功能用户量突破3亿。3亿用户选择...
日期:01-07
搭乘数实融合东风  游戏能否开辟新蓝海?
电脑远程代码执行漏洞亚马逊跨境电商 网站2060显卡是英伟达索尼z4日版手机参数三星galaxy z flip4G   本报记者 李哲 北京报道   当前,我国已经成为全球第一大游戏市场。...
日期:07-31
抖in品类日联动ChinaJoy,用新玩法连接品牌与用户
  在全球电竞行业蓬勃发展的今天,游戏已深入人们的生活,甚至也成为了Z世代后浪们的一种社交语言和生活方式,而由此衍生出的电竞数码产品市场则呈现出爆发式的增长。尽管电竞...
日期:07-17
Firefox 火狐浏览器桌面版已停止开发 PWA_火狐(Firefox)浏览器
  1月28日消息 外媒 9to5 Google 报道,网页最近比较好的功能之一是,网站可以升级为独立的应用程序 -- 称为 Progressive Web Apps-- 在手机或桌面上。不幸的是,似乎 Mozilla...
日期:07-27
vivoy31s天玑700「vivo S17 Pro现身Geekbench:天玑7200处理器」
快科技4月24日消息,vivo一款型号为V2285A的新机出现在Geekbench跑分网站上,预计为vivo S17 Pro。据悉,vivo S17 Pro单核跑分为873分,多核跑分为2350分,从跑分情况来看,该机预计搭...
日期:04-25
男子把买房送的1000克黄金卖了45万 很开心赚到高位红利「买房送金砖」
近期,杭州临安买房送黄金的业主陆续开始卖掉手中的黄金,有人甚至获得了可观的收益。黄金回收店老板表示,他们在一个月内收到了20多公斤的黄金,不少业主都吃到了金价上涨的红利,金...
日期:08-03
疫情信息真假难辨?百度输入法输入关键词可接入官方平台权威辟谣
  新型冠状病毒感染的肺炎疫情在非典结束的17年后,再次将“野味”的严重性带到大众眼前。自疫情发生以来,每天都有各种新闻不断提醒人们拒绝野味。近期许多用户在使用百度...
日期:04-26
超频版第二代骁龙8机皇 三星Galaxy-S23系列或定档2月1日_三星s20超频内核
临近春节,国内各大手机厂商都在推出了自家的年度旗舰后,逐渐开始进入假期模式,关于旗下新机的爆料也日渐减少,而大家关注的焦点逐步转移到年后几款代表性机型上,其中作为老牌机皇...
日期:09-21
荣耀magicbookpro锐龙版2020是什么显卡「荣耀官宣MagicBook X Pro锐龙版:搭AMD 7040HS处理器 八月发布」
凤凰网科技讯(作者/郑乾坤)7月30日消息,荣耀与AMD在2023年ChinaJoy展会上共同召开荣耀笔记本AMD新品媒体沟通会,并展出搭载锐龙7840HS芯片的荣耀MagicBook X Pro系列锐龙版笔记...
日期:07-31
可持续发展大数据国际研究中心在北京成立:为全球首个以大数据服务联合国的科研机构
  9 月 6 日消息 据央视新闻,今日,可持续发展大数据国际研究中心在北京成立,这是全球首个以大数据服务联合国《2030 年可持续发展议程》的国际科研机构。   可持续发展大...
日期:09-12
日本电信运营商KDDI大规模通信故障恢复 股价下跌近4%(日本kddi电信公司)
  7月4日消息,据国外媒体报道,日本电信运营商KDDI周日晚间表示,修复作业于3日傍晚结束,截至周一早晨7点,使用互联网等数据通信“全国范围已基本恢复”。  据悉,当地时间7月2...
日期:07-21