您的位置:首页 > 互联网

LeCun曝多模态LLM重大缺陷 提出Interleaved-MoF显著增强视觉理解能力_多模态nlp

发布时间:2024-01-18 19:11:10  来源:互联网     背景:

要点:

  • 多模态大语言模型(MLLM)在视觉处理方面存在重大缺陷,特别是在处理视觉模式上的性能差距明显。

  • 研究团队通过将DINOv2特征与CLIP特征结合的方法提升了多模态大模型的视觉功能,创造性地解决了视觉缺陷问题。

  • 提出的交错特征混合(Interleaved-MoF)方法在MMVP基准中获得了10.7%的能力增强,显著提升了多模态大模型的视觉基础能力。

1月18日 消息:近期来自纽约大学和UC伯克利的研究团队在多模态大语言模型(MLLM)领域取得了重要突破,成功捕捉到了其在视觉理解方面存在的重大缺陷。研究人员发现,当前的MLLM在特定场景下,甚至在一些人类容易识别的图像问题上,表现不如随机猜测。这些问题包括对图像中朝向、状态、数量等基本要素的识别,显示了MLLM在视觉处理方面的局限性。

nova6手机图片

论文地址:https://arxiv.org/pdf/2401.06209.pdf

这项研究的关键发现是,MLLM的视觉缺陷主要源自对比语言-图像预训练盲对(CLIP-blind pairs),即CLIP模型编码相似但在视觉上不同的图像,导致误导性的视觉嵌入。研究人员通过评估多个开源和闭源模型的性能发现,除少数模型外,大多数MLLM在视觉模式识别上都表现不佳,与人类视觉能力存在显著性能差距。

vivo Y70t 5G手机 8G+128GB

为解决这一问题,研究团队提出了交错特征混合(Interleaved-MoF)方法,将CLIP和DINOv2嵌入进行交错混合,成功提升了MLLM的视觉基础能力。实验证明,这种方法在MMVP基准中取得了10.7%的能力增强,而且不影响模型遵循指令的能力。通过此研究,对MLLM在视觉方面的性能提升打开了新的思路,为未来多模态AI技术的发展提供了有益的启示。

丰田BZ3

这项研究对于解决当前MLLM在视觉理解方面的缺陷问题具有重要意义。通过深入分析CLIP模型的视觉模式和MLLM性能之间的相关性,研究团队不仅提出了问题,还通过交错特征混合方法取得了实质性的改进。这不仅对AI领域的研究有着积极的推动作用,也为未来开发更强大、全面的多模态大模型奠定了基础。

多模态分析elan软件入门

vertu5g手机怎么样


返回网站首页

本文评论
海尔用户体验「揽获两项国家级大奖!海尔体验设计实力是怎样炼成的?」
   9 月9- 11 日,由国家知识产权局、科技部以及江苏省人民政府主办的中国(无锡)国际设计博览会召开。作为中国知识产权领域的盛会之一,会上颁发了第二十四届中国专利奖(外观设...
日期:09-12
美FTC出手阻止 消息称微软和动视暴雪考虑“立即”完成收购交易
北京时间6月13日早间消息,据报道,美国联邦贸易委员会(FTC)要求联邦法院阻止微软完成对动视暴雪的750亿美元收购,此举给这笔游戏行业有史以来规模最大的交易带来了压力。该反垄断...
日期:09-24
微信Windows PC电脑版v2.7.1更新下载:新增打开小程序功能_微信电脑版微信小程序
  10月21日消息 近日微信2.7.1 for Windows迎来更新,新增了打开聊天中的小程序消息功能,另外还新增聊天文件面板,可查看和管理所有聊天文件。   ▲可以打开聊天中的小程...
日期:07-17
马斯克推特wifedoge「马斯克意外遭苹果“拦路”!推特无法在AppStore顺利改名」
快科技7月30日消息,早些时候,在马斯克的力推之下,推特在PC Web端与安卓端都已经更名为X”,并替换了Logo。macbook内存但在iOS平台,推特的改名却出乎预料的,遭到了来自AppStore的阻...
日期:07-30
雷军笑谈金山上市,而小米早已低调布局区块链_雷军笑谈金山上市,而小米早已低调布局区块链产品
《雷军笑谈金山上市,而小米早已低调布局区块链》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:雷...
日期:08-02
三星发布全新摄影技术:Galaxy S24 Ultra搭载
三星公司最近发布了适用于2亿像素ISOCELL传感器的Zoom Anyplace和E2E AI Remosaic解决方案,并预计将在明年1月发布的Galaxy S24 Ultra手机上装备。其中,Zoom AnyPlace技术通过...
日期:10-28
黄天荫院士:缺少通识教育和基础训练,很难造就顶尖人才
作者|章剑锋出品|网易科技《科学大师》栏目拍摄|网易新闻直播中心团队黄天荫,世界顶级医师科学家、新加坡国家科学院院士、美国国家医学科学院外籍院士,2022年底第四度入选全...
日期:03-01
女子抹护手霜摸UGG靴子被要求买下:双方各执一词!有网友说弄脏就得赔
去店里摸了下鞋子,就被要求买下,这事儿你怎么看?3月1日在湖北武汉,叶女士发文称手上擦了护手霜后在UGG门店内摸了下靴子,被导购要求买下。她表示,当时没有禁止触摸标志、也没有导...
日期:03-07
智能手机寒气依然逼人:苹果、安卓集体悲观 升级要挤牙膏了
2022年1月春季了,智能手机市场依然感觉不到暖意,寒气逼人还是常态,甚至比之前的预期更差,来自手机供应链的消息称,不论苹果还是安卓,几乎所有厂商都很悲观。镜头大厂大力光今天也...
日期:01-13
苹果a10是仿生芯片吗「苹果A16仿生芯片成本高达110美元 是A15芯片2.4倍」
10月8日消息,有外媒在报道中称,苹果上月新推出的iPhone 14系列中的最高端款,也就是iPhone 14 Pro Max,包括零部件在内的生产成本,增加到了501美元,高于上一代的461美元。从外媒的...
日期:10-09
部分iPhone 14 Pro卡槽只能用单卡:苹果品控拉胯「苹果11pro和12卡槽通用不」
iPhone 14系列已经上市有一段时间了,但苹果似乎依然没有搞定供货和品控的问题。一加快充功率近日有部分网友反馈,自己购买的iPhone 14 Pro系列无法安装两张SIM卡,卡槽只有一面...
日期:09-30
“小S”来了 新款特斯拉Model 3官图泄露:前脸巨变、灯组更新_新版特斯拉s
快科技9月1日消息,传闻为真,新款特斯拉Model 3真的要来了,就在刚刚,网络上泄漏了该车的官图。从曝光的图片看,新车整体气质更向其大哥Model S”靠近了些,其前脸依旧采用了封闭样式...
日期:09-01
苹果 iPhone 15 Pro 耐用性测试:钛合金更容易出现划痕_苹果手机钛合金
IT之家 9 月 23 日消息,YouTube 频道 TechRax 在近日上传的一期视频中,对 iPhone 15 Pro 机型进行了耐用性测试,认为抗划痕能力不如 iPhone 14 Pro 的不锈钢材质。格力电器现金...
日期:09-23
Facebook将改版资料页面 增多项共享服务_更新facebook主页链接
  9月20日消息,据《纽约时报》报道,消息人士透露,Facebook计划在本周四举行的f8开发者大会上,推出大改版的用户资料页面。有关此次重新设计版面的细节还未得知,不过消息人士称...
日期:07-23
同程收购美豪商业旗下轻资产加盟部分,美豪酒店还将负“重”前行
聚划算中位价什么意思罗永浩开发的app华为ceo任正非图片来源:视觉中国小米note顶配版评测   记者 |谢亦欣   8月15日,界面新闻从天眼查处获悉,上海美豪商业管理有限公司(下...
日期:08-17
拼多多开“卷”!索尼PS VR2百亿补贴仅3948元:才发售第二天_索尼在拼多多上有专卖店吗
昨天凌晨,预售已久的索尼PS VR2正式全球发售,国行首发售价为4499元。罗永浩作为曾经的数码行业从业者,还带来了一次全球首发开箱,并进行了一波带货。值得注意的是,作为价格杀手”...
日期:02-25
小米14性能稳了!高通骁龙8 Gen3规格基本确定:跑分160万
据最新消息,高通即将于10月24日举办骁龙技术峰会,届时将正式发布骁龙8 Gen3芯片。消息透露,该款芯片的普通版主频确定为3.18/3.2GHz±,并且安兔兔V9版本跑分可达160万分。据悉,骁...
日期:06-10
2024年AI还能帮你干什么?这十个趋势必须关注_未来2024年
声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:白交 衡宇 ,授权转载发布。元旦节收假,你身心都复工了吗?vivox90是不是双芯片新的一年,有没有跟我一样,既想打工挣钱花,又想从...
日期:01-04
迎宾+送餐,擎朗机器人入驻数家江城知名餐厅(擎朗送餐机器人怎么样)
  要说最近哪家机器人比较火爆?擎朗机器人真的是走到哪火到哪。日本、韩国、美国、西班牙等海外市场持续狂热,短短1年间完成过2亿元B系列融资及数亿元C轮融资。近日,擎朗机...
日期:07-10
TCL实业斩获40逾项CES 2024大奖,全球最大QD-Mini LED电视广受认可
近日,美国拉斯维加斯国际消费类电子产品展览会(CES 2024)正式落下帷幕。作为全球领先的智能终端企业,TCL实业凭借“创新敢为”包揽超过 40 项CES2024 奖项。其中, 115 吋全球最...
日期:01-15