您的位置:首页 > 互联网

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

发布时间:2024-02-02 00:46:50  来源:互联网     背景:

机器之心报道

机器之心编辑部

去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。



  • demo 地址:https://llava.hliu.cc/
  • 项目地址:https://github.com/haotian-liu/LLaVA

与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:

  • 将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。
  • 通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。
  • 更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。
  • 使用 SGLang 进行高效部署和推理。



图源:https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率,它复用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 模型使用 32 个 A100 在大约 1 天内完成了训练。LLaVA-1.6 使用 130 万个数据样本,计算 / 训练数据成本约为其他方法的 100-1000 分之一。



苹果手机显示美国销售

与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。



值得一提的是,LLaVA-1.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。

方法改进

动态高分辨率

研究团队以高分辨率设计 LLaVA-1.6 模型,旨在保持其数据效率。当提供高分辨率图像和保留细节的表征时,模型感知图像中复杂细节的能力会显著提高。它减少了面对低分辨率图像时的模型幻觉,即猜测想象的视觉内容。



数据混合

高质量的用户指令数据。该研究对高质量视觉指令遵循数据的定义取决于两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。

因此,该研究考虑了两个数据源:

现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);

为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

研究团队还表示除了 Vicuna-1.5(7B 和 13B),还考虑采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能够支持更广泛的用户和更多的场景。



参考链接:https://llava-vl.github.io/blog/2024-01-30-llava-1-6/返回


返回网站首页

本文评论
即创自动剪辑软件下载地址 即创APP在哪下载_即刻创意
抖音即创一站式智能创意生产与管理平台,是一个集成了AI视频剪辑、作图、文案创作等功能的AI软件,目前已经面向用户进行了公测,那么即创APP在哪里可以下载使用呢,我们来一起看下...
日期:11-13
东南亚网约车巨头 Grab 最早将于 12 月在美上市(网约车美国上市)
  北京时间 11 月 24 日上午消息,东南亚网约车巨头、独角兽公司 Grab 最早将于 12 月份在美国上市,在此之前 Grab 先要与特殊特殊目的收购公司(SPAC)合并,下周公司将会就合...
日期:08-09
一加11跌破4000了 立减500仅售3899_一加1价格
一加11手机近日推出了一项优惠活动,最高可享受400元的立减优惠。具体优惠时间是在6月11日到12日之间。在这次优惠活动中,12GB 256GB版本享受100元的优惠,最终售价为3899元;16GB...
日期:06-12
骁龙8cx Gen2「骁龙8 Gen2性能曝光AI提升50% 小米13首发」
中关村在线消息:高通年度旗舰处理器骁龙8 Gne2将于下月召开的骁龙技术峰会中正式发布,今日新处理器的性能被曝光,相比骁龙 8 Plus Gen1,骁龙 8 Gen2 的提升幅度大约在 10% 以上,...
日期:10-11
马斯克称iPhone换代毫无新意,没有类似华为一样的革命性技术!_马斯克否认曾想当苹果ceo
马斯克称iPhone换代毫无新意,没有类似华为一样的革命性技术!马斯克讽刺iPhone换代毫无新意,质疑升级换代没有带来革命性的突破,此苹果市值暴跌。与此同时,苹果也遭到了一些质疑。...
日期:09-11
Yaccarino出任推特新CEO 定了-马斯克_Linda_推特@yaweicat
【】5月13日消息,美东时间12日,马斯克发布推文称NBCUniversal原全球广告业务主管Linda Yaccarino将出任推特首席执行官。她的工作重点将在业务运营方面;马斯克本人将把工作重点...
日期:09-28
一芯多屏智能驾驶舱「Canalys:多屏智能座舱将成中国新能源汽车标配」
通信世界网消息(CWW)根据分析机构Canalys最新数据,2023年第一季度,中国市场广义新能源乘用车前装标配智能座舱的批发量达110万辆,市场渗透率达82.7%,领先于全球74.3%的平均水平。...
日期:08-28
疫情影响直营门店收入,倍轻松上半年净利润同比下滑186%
  记者 |徐诗琪  倍轻松(688793)近日发布2022年上半年业绩报告,并进行了路演答投资者问。财报显示,报告期内公司实现营业收入4.59亿元,同比下滑15.65%;归属于母公司股东的净利...
日期:09-10
言图app「商汤前员工创立言图智能 为企业提供定制化 AI 助手服务」
7月25日 消息:近日,商汤前员工在深圳成立了一家创业公司,名为言图智能。这家公司的目标是利用语言大模型技术为企业提供定制化的 AI 助手服务。言图智能的创始团队由两位产品...
日期:07-25
截至2016年底,互联网用户达到7.3亿,互联网普及率达到_第44次互联网报告发布:中国网民达8亿,互联网普及率达61.2%
  中国互联网络信息中心(CNNIC)在京发布第44次《中国互联网络发展状况统计报告》(下称《报告》)。《报告》从互联网基础建设、网民规模及结构、互联网应用发展、互联网政...
日期:05-08
三星晶圆代工论坛将于10月3日在美国加州率先召开_三星去美国化芯片生产线
10月2日消息,三星发布公告称,首场三星晶圆代工论坛2022和三星SAFE(先进晶圆代工生态系统)论坛2022的融合活动将在线下举行。线下活动举行地点分别为:美国圣何塞市、日本东京、德...
日期:10-03
12月7日发布!真我GT5 Pro上架京东开启预约_真我gt5g版
11月27日 消息:将于12月7日发布的真我GT5Pro已经在京东自营旗舰店上架预约。三星集团李在镕获释酷我音乐创始人雷鸣真我realme副总裁、全球营销总裁、中国区总裁徐起表示,真...
日期:11-27
华硕发布新款16英寸便携式显示器:2K高刷屏、双USB-C「4k165hz华硕显示器推荐」
快科技5月15日消息,华硕推出了16英寸便捷式显示器ZenScreen MB16QHG,可为移动办公提供优秀的显示效果。据了解,这款显示器采用了16寸IPS屏幕,显示比例为16:10,可视角度为178度(水...
日期:05-16
音频剪辑adobe「AudioSep:可以从音频剪辑中仅分离出特定的声音」
10月27日 消息:AudioSep 是一种 AI 模型,可以使用自然语言查询进行声音分离。这一创新性的模型由Audio-AGI开发,使用户能够通过简单的语言描述来分离各种声音源。抖音外卖业务...
日期:10-27
2022诺贝尔经济学奖公布 3名研究金融危机的美国经济学家获奖_诺贝尔经济学奖宏观经济学
2022年诺贝尔奖中的科学类奖及文学奖、和平奖已经陆续公布,今晚经济学奖也公布了,3名美国经济学家获得今年的大奖,奖金也是1000万瑞典克朗,约合640多万人民币,12月10日颁奖。引领...
日期:10-28
Google Chrome 原生网页二维码分享已可用:离线小恐龙“加持”(chrome二维码插件)
  4月17日消息 据AndroidPolice报道,日前,Google Chrome浏览器原生“网页转二维码”功能终于可用,并且二维码中央还有Chrome浏览器标示性的小恐龙。   谷歌在去年下半年便...
日期:06-28
博德之门3上ps4吗「博德之门3有PS5版本吗 PS5等主机版本什么时候会上」
博德之门3最近PC版本上线了,但是很多朋友应该还等着PS5、Xbox等主机版本上线时间的公布,所以今天就来为大家详细的介绍一下。手机锂离子电池最新科技博德之门3有主机版本,PS5和...
日期:08-09
算力网络白皮书「算力网络助力产业数字化跃迁」
01 产业数字化历经三个发展阶段产业数字化历经信息化、数字化和智能化三个发展阶段。产业数字化发展过程是数据要素应用广度与深度不断拓展的过程,也是信息技术及基础设施迭...
日期:09-14
马斯克称不看好飞行汽车:没准哪天会掉下来_太突然了 马斯克跑了
最近几年,不只是新能源汽车、电动汽车很火,连飞行汽车这种以前只在科幻片能见到的产品都被生产出来了,而且被一些人认为是未来趋势。国内的小鹏汽车也一直在持续专研,产品已经几...
日期:11-24
为了总统大位 特朗普考虑重返推特「特朗普的推特恢复了吗」
凤凰网科技讯 北京时间6月29日消息,知情人士称,如果特朗普的总统竞选活动需要社交媒体的助力,他将考虑重返推特。特朗普目前在推特上依旧拥有近8700万粉丝。但是自从2021年1月6...
日期:06-29