您的位置:首页 > 互联网

轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

发布时间:2024-04-22 10:23:16  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:陈林,授权转载发布。

现有ios更新可用,请从ios14

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。

上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。

发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550x3300),并询问论文哪个模型在MMBench上的性能最高。

xy苹果助手安装官方正版

需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答问题。

面对更加极端分辨率的图像输入(816x5133),IXC2-4KHD轻松理解图像包括7个部分,并准确说明了每个部分包含的文字信息内容。

随后,研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力,其中5项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。

仅仅使用7B参数量,IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。

△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率?

为了实现4K动态分辨率的目标,IXC2-4KHD包括了三个主要设计:

(1)动态分辨率训练:

△4K分辨率图像处理策略

在IXC2-4KHD的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过55x336x336,等价于3840x1617分辨率)的一个中间尺寸。

随后,图像被自动切块成多个336x336的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。

实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在4K分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。

以旧换新苹果6splus能抵多少钱

(二)添加切块布局信息:

为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’\n’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大,而对于动态4K分辨率训练则可以带来显著的性能提升。

苹果2020款macbook air 13.3英寸性能

(三)推理阶段扩展分辨率

研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将HD9(最多9块)的训练模型直接使用HD16进行测试,可以在InfographicVQA上观察到高达8%的性能提升。

IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接:

https://arxiv.org/pdf/2404.06512.pdf

项目链接:

https://github.com/InternLM/InternLM-XComposer


返回网站首页

本文评论
阅文集团股权「阅文集团:今日耗资约1323.06万港元回购公司60万股H股股份」
  阅文集团10月3日在港交所公告,当日公司耗资约1323.06万港元回购公司60万股H股股份,每股回购价格21.1港元-22.55港元。多功能翻译机首选讯飞翻译机好用阿里巴巴纽约上市65w...
日期:10-04
5G-A渐行渐近,无源物联网能否大放异彩?「无源物联网有什么公司」
通信世界网消息(CWW)随着物联网技术在各类消费终端和行业领域的规模化应用,全球物联网连接数已经突破144亿,我国也于去年成为全球主要经济体中率先实现“物超人”的国家。在数字...
日期:07-17
成都大熊猫基地门票购买「成都大熊猫基地门票销量暴涨9倍 排队两小时只为见花花一面」
近期,成都大熊猫基地的门票销售量突然激增9倍,引起了社会的广泛关注。这主要是因为大熊猫“花花”,“花花”成为了大熊猫基地的最受欢迎的明星。去哪儿平台数据显示,3月1日至12...
日期:03-15
苹果审核通过watchGPT应用:用户可在Apple Watch上和ChatGPT聊天_ios watchdog
IT之家 3 月 9 日消息,在批准通过 BlueMail 应用程序之后,苹果近日再次批准了一款适用于 Apple Watch 的 ChatGPT 应用程序 watchGPT,用户可以在 Apple Watch 上和 ChatGPT 聊...
日期:03-09
豆豆兼职充分发挥撮合职能 智能匹配灵活就业供需方
  伴随互联网技术快速进步和全面应用,我国新经济新业态发展迅猛,给劳动就业领域到来巨大机遇的同时,也面临各种挑战,尤其是从业人员的劳动权益保障。传统劳动关系,企业须为就...
日期:07-16
被AI客服聊到生气的遭遇上热搜 专家:应加强人工智能客服监管_人工智能客服是什么意思
3月15日 消息:今日,话题“被AI客服聊到生气的遭遇”登上微博热搜,据央视新闻报道,智能客服虽然能降低企业成本和缩短响应时间,但消费者反映智能客服通常不够智能,无法准确理解问...
日期:03-15
电子科技大学行敏锋教授莅临其利天下进行技术指导「电子科技大学徐行」
清明时节,春雨润物,其利天下特别邀请到特聘算法指导专家,电子科技大学行敏锋教授莅临指导交流。行教授从千里之外的成都而来,用先进的技术理论为公司今年项目规划做特别工作指导...
日期:05-05
网龙助力塞尔维亚国家教师教育信息化国培计划开展
  近日,网龙网络公司与塞尔维亚贝尔格莱德大学教师教育学院、塞尔维亚教育改进研究所签署三方战略合作备忘录,将共同推进塞国国家教师教育信息化国培计划(以下简称“国培...
日期:04-06
消息称小米屏下前摄新机搭载骁龙 8 系芯片,极致四窄边设计_小米屏下摄像头技术来自公司
IT之家 1 月 15 日消息,博主@数码闲聊站 此前爆料称,预计小米今年推出新款屏下前摄手机,但不是 MIX 5 系列。今日,这款新机的更多消息也随之曝光。谷歌pixel7pro能开90帧该博主...
日期:01-16
电影《涉过愤怒的海》在北京路演:周迅重现“好多人啊”名场面
11月26日消息,据国内多家媒体报道,电影《涉过愤怒的海》在路演,现场观众热情玩梗好多人啊”,周迅也有求必应重现好多人啊”名场面。公开报道显示,好多人啊”是一个有名的网络梗,之...
日期:11-27
传Google要求硬件厂商推迟公布产品以改进软件
  消息人士透露,Google已经要求电视厂商推迟公布采用该公司软件的产品。   Google此举发生在索尼和罗技的Google TV产品遭到负面评价之际。部分内容提供商也已经禁止它...
日期:07-25
雷军称小米SU7订单远超最乐观预期 霞光紫成最火颜色
4月16日 消息:小米CEO雷军今日在微博上透露,他计划于4月18日下午16:00开场直播,与广大粉丝深入交流。他提到,小米SU7自发布以来,不到20天的时间里便引发了众多“万万没想到”的...
日期:04-16
我国首位诺贝尔医学奖获得者是谁发明了什么「父子相隔40年同获诺贝尔医学奖!他找到了人类起源的秘密」
  文/张洪涛 美国药理学博士 凤凰网《肿瘤情报局》特约专家  核心提要:  1。 2022年诺贝尔生理学或医学奖公布,来自瑞典的科学家斯万特·帕博(Svante Pääbo)获奖。他在...
日期:10-05
thinkbook2021测评「CES一大看点:ThinkBook AI PC在结构、形态等方面实现突破性创新」
2024 年 1 月 10 日,全球最 大的科技盛会——CES2024 国际消费电子展在拉斯维加斯拉开帷幕,联想集团携多款AI Ready的AI PC新品亮相,让全球看到了中国科技企业的新活力。其中,Th...
日期:01-11
老干妈回应被辛巴称为是预制菜 AI生成菜谱应用有哪些?
最近,网红辛巴在直播带货时大赞预制菜,称孩子吃预制菜更健康更卫生,引起网友热议。 1 月 21 日,辛巴在直播间回应预制菜言论,称自己是被断章取义,说的是让大家去吃好东西,不是让去...
日期:01-23
联想首次参展MWC上海,亮相3S全栈能力,发布新款AR眼镜
6月28日消息,2023MWC上海今天正式开幕。联想首次亮相,展示了基于新IT架构的3S(智能设备、智能基础设施、方案服务)全栈产品、方案及服务。据悉,此次联想参展的面积达3375平方米,是...
日期:06-28
阿汤哥太拼了!《碟中谍7》让人肾上腺素飙升:实拍3000米飞车跳崖
很少有系列电影像《碟中谍》那样,口碑一直保持在水准之上,最近的这一部《碟中谍6:全面瓦解》甚至拿到了豆瓣8.1分。把人拍年轻的相机日前,阿汤哥的《碟中谍7:致命清算》公布了官...
日期:12-20
荣耀智慧屏x1怎么看电视频道,看电视频道还要花钱?快收藏_荣耀智慧屏x1可以直接看电视吗
  荣耀智慧屏x1凭借着超高的性价比,常年占据京东销量榜前十,而且陆续也支持鸿蒙2.0了,销量丝毫不减。   但是很多朋友说荣耀智慧屏x1看不了直播,不知道荣耀智慧屏x1怎么看...
日期:07-17
AI PC正加速走来!英特尔发起人工智能创新应用大赛,邀你来战!_英特尔ai开放平台
(原标题:AI PC正加速走来!英特尔发起人工智能创新应用大赛,邀你来战!) 12月15日,堪称Intel史上最大变革的酷睿Ultra处理器正式登场...
日期:12-22
手机报价 中关村「手机报价中关村在线官网」
在如今的手机市场中,消费者们应该对有关手机的“指南针”——中关村,有着不一样的感受。中关村,作为全国最大的IT电子市场,集聚了国际知名的科技企业和众多手机品牌,是不少消费者...
日期:05-28