您的位置:首页 > 互联网

天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题

发布时间:2023-09-06 11:54:28  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色 ,授权转载发布。

国产大模型,登顶多模态榜单!

昆仑万维最近在大模型圈可谓“风生水起”。

几天前刚被曝挖来了AI大牛颜水成,出任天工智能联席CEO。

现在,其「天工」大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。

△MME感知榜第一,认知榜第二,总榜第一

腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。

MME数据集是一个最近发布的多模态语言模型测评基准。

它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M),拿下了第一(榜单地址见文末)。

如何做到?

主要是解决了现有多模态大模型中颇为困扰的两大问题:

幻觉和较弱的跨语言能力。

多模态两大难

所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中根本没有相关特征。

例如面对下面这张图像。

如果问它“这个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。

再如这张图片:一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。

如果问它“图片中的所有物品都是黄色的吗?”,没有谁能答对。

至于跨语言能力问题,主要表现在应对中文场景中的问题回答不尽如人意。

比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时,3个双语多模态语言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

问它们从哪里能观赏到该景色,就更是一言难尽了。

甚至有时,模型还会直接回复纯英文。

这两大问题严重影响着现有多模态大模型的性能。

怎么解决?

三方面入手

昆仑万维天工大模型Skywork-MM从分别从数据、模型和训练流程三方面入手。

其中重点是数据和模型。

先看数据。

首先对于幻觉问题。

从本质出发,该问题主要是整个模型训练过程中使用的数据太偏重正样本。

也就是说,模型描述的都是图片中有什么,而没有学习图片中没有什么。

如果训练过程中再碰上弱相关的图文数据,模型就更加放飞联想、形成较严重的幻觉。

为此,天工大模型多模态团队提出以图像为中心,喂给模型既包含正样本也包含负样本的多模态指令微调数据:

这使得模型既能够学习一张图像中存在的视觉特征,也能学习到不存在的特征。

这样,模型的指令跟随能力便得到增强:问什么答什么,没有的也不胡编。

其次,对于跨语言中的中文问题,一共有两个解决思路:

(1)增强中文的指令追随能力。

由于“微调指令的文化gap很小”,只需将上面解决幻觉问题中构造的英文指令微调数据翻译成中文使用。

(二)增强中文相关场景的识别能力。

需要注意的是,在解决跨语言问题时,我们重点关注的点是文化偏差——

即通用的视觉特征和语言特征可以通过共有的语料进行关联,但是各个语言文化中专有的视觉特征和语言特征的关联需要大量特殊学习。

美大集成灶和方太集成烹饪中心哪个好

因此我们需要加入大规模的中文图像-文本对数据。

不过,这样的中文语料并不好收集,一是囿于数据质量,而是困于数量。

怎么办?

引出Skywork-MM在模型架构上的改进。

为了不让低质量的图文数据影响模型效果,天工大模型多模态团队在设计上选择将视觉模型和大语言模型完全冻结。

这样做的目的是保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,以及大语言模型的语言能力不损失。

同时,为了更好的关联不同文化环境中的视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

如下图所示,Skywork-MM一共包含四大模块:

给定一张图像,LVM先提取图像特征,然后将图像特征输入到重采样器中,计算出可为LLM输入的token。

LLM接收token和指令提示(如果有),然后输出图像描述或对问题的回答。

至于训练流程,主要分为两阶段:

第一阶段使用双语的大规模图文对数据进行图像概念和语言概念的关联学习。

第二阶段使用多模态微调数据进行指令微调。

此时,各种类型的指令微调数据(包括正样本和负样本)就组成统一的Chat Prompt形式。

Ps. 上图中的重采样器和LoRA适配器标记了火焰,它们是可训练的。

登顶MME综合榜单

如下表所示,Skywork-MM一共用了大约50M图文数据,这比当前的同类大模型都要少得多。

但经过以上数据、模型和训练流程三方面的改进,Skywork-MM效果拔群。

如下图所示:

它能够准确理解图片中的反常行为;

也能听明白一些特殊的指令(根据选项回答问题,根据风景写诗,写广告词,写获奖感言等等);

对于中文场景问题,表现得也不再像个“歪果仁”了。

可谓拥有了良好的指令跟随和中文场景问答能力。

因此像第一段展示的那些幻觉和跨语言问题,它完全可以信手拈来:

孟非没有头发就没有,不会说成黑色;苏州园林、非诚勿扰节目一眼认出;三个物体没有一个是黄色。

而如开头所示,在与其他模型的横向测试中,Skywork-MM直接荣登MME榜单综合第一,包括感知榜单第一(且与第二名有着43分的差距)、认知榜单第二。

这个榜单大约今年6月上线、目前GitHub4k标星,是当前多模态大模型最新的测评基准之一。

它一共包含14个子任务,其中感知任务除OCR,还包括粗粒度和细粒度对象识别,前者识别对象的存在与否、数量、位置和颜色;后者识别电影海报、名人、场景、地标和艺术品。

认知任务则包括常识推理、数值计算、文本翻译和代码推理。

下表显示Skywork-MM在该榜单感知任务中的OCR+粗粒度识别上的具体得分:

细粒度识别得分:

以及认知任务得分:

可以看到,能与Skywork-MM偶尔“平分秋色”的只有MiniGPT-4和BLIP系列。

而除了MME榜单,Skywork-MM还在另一多模态基准MMBench的开发集上表现出色:

进步空间

需要注意的是,尽管昆仑万维天工大模型这一最新成果,代表了当前多模态大模型的最高水平,但它还是存在很多进步空间。

例如:

文化和语言障碍仍然存在,还需要我们开发一种多语言的LVM,更有效地提取不同文化特有的视觉特征,或者再收集更多各语言的大规模、高质量图像文本对,确保模型准确掌握视觉概念和文本概念的关联。

除此之外,目前的成果只建立在较小规模的基础之上(13B),如果研究更大的多模态模型,我们在使用数据、参数设置、训练策略等方面可能都需要进一步探索。

评估基准也还可以更全面,目前MME和MMBench的测试范围都有限。

以及从上面的粗粒度感知识别任务榜单来看,现有所有多模态大模型对于根据图片准确识别物体位置的能力(对实现机器人感知意义重大)都比较欠缺:

最高的模型得分才33.33,离满分100还有很大的差距。

这个缺陷从下图也可以看出:

毫无疑问的是,人工智能的未来一定是多模态的。

以上这些问题说明,我们才刚刚开始探索它真正的潜力。

然而,我们相信,在一次又一次的榜单排名更迭之中,属于多模态大模型的“ChatGPT时刻”终将会到来。

论文地址:

https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf

榜单地址:

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

—完—


返回网站首页

本文评论
中国汽车设计为什么这么丑「中国车设计,啥时候能靠中国人?」
出品|虎嗅汽车组作者|李文博编辑|周到头图|《中国合伙人》提到中国汽车设计,你的第一反应是什么?是“皮尺式测量”+“像素级抄袭”,最后攒成一个“几何式丢人”的四不像超级缝合怪?...
日期:02-25
amd锐龙新的处理器「AMD Zen4锐龙处理器在国内偷跑开卖:旗舰7950X卖5999元」
赶在27号正式发售前,AMD锐龙9 7950X的散片已经在某“海鲜市场”出现,标价5999元包邮。和盒装行货5950X当前3799元的价格比,的确是贵上不少。同时,考虑到7950X的官价699美元比595...
日期:09-24
国庆微信数据报告发布 三大到店网红产品曝光
联商快讯:中秋国庆双节已结束,这个 8 天长假,你是如何度过的?别人的状态又是怎样的?从吃吃吃、玩玩玩,再到买买买、看看看,来一睹大数据统计下国人欢度国庆的百态。据微信官方发...
日期:08-01
小米手机或将搭载手动变焦技术「小米手机手动调焦」
中关村在线消息:近日,根据北京小米移动软件有限公司提交的一项名为“相机和电子设备”的专利申请显示,小米公司开发了一种供手机使用的手机摄像头手动变焦技术,据猜测该技术或许...
日期:10-04
DQ声明称协议系伪造 否认与美团网有书面协议
  美团网副总裁王慧文昨日下午在微博称,美团网的每一单都是要通过严格的审核流程,不存在没有合同就上线的事情。同日晚些时候DQ发表声明称,在与美团网沟通过程中美团上海相...
日期:07-26
事隔两年《赛博朋客2077》口碑逆转「赛博朋克2077口碑崩了」
《赛博朋克2077》面市两年有余,Steam用户评价终于转正为特别好评”,游戏设计师喜极而泣,无语凝噎与何人说,雄关漫道从头越:该作历经灾难性首发,除了被迫升级显卡完美避开矿潮的PC...
日期:07-15
iPhone 14爆料合集来了:然而十三香可能是真的!_真就13香!iPhone13曝光!
对于数码爱好者来说,每次快到九月的时候,就能隐约感受到一股无形的力量在吸引着我们,因为。。。   果子哥每到这个时候就会发布新一代 iPhone。   不过托尼觉得今年这种感...
日期:08-19
faker换战队了吗「不会效力LPL T1战队官宣:与Faker续约3年」
11月28日消息,据@T1电子竞技俱乐部 官方消息,其已与Faker李相赫选手成功续约三年,至2025年。近期,英雄联盟各大职业联赛的转会期纷纷开启,最受关注的当属LPL和LCK两大区域。作为...
日期:11-30
广东康之家云健康医药股份有限公司 荣获2019中国新经济创新势力榜“最佳新零售平台”大奖
  3月7日,由上海市互联网协会和艾媒咨询集团主办的2019电商超级沙龙在上海圆满落幕,同期举行“2019中国新经济创新势力榜”颁奖盛典,作为优秀企业代表,广东康之家云健康股份...
日期:11-27
阿根廷对中国表态「阿根廷国家队关于中国行声明 注意辨别不实消息」
今天,阿根廷国家足球队发布声明,关于“阿根廷国家队中国行”的相关内容与售票信息,请球迷朋友们注意辨别不实消息,避免造成损失。每日优鲜股价破发国际智慧教育及教育装备展示会...
日期:03-14
教皇发布AI技术指导手册,避免科技引发人类末日「教皇n07」
7月10日 消息:近日,教皇与美国圣克拉拉大学的研究机构成立了技术、伦理和文化研究所(ITEC),并发布了一份长达140页的AI技术指导手册。这份手册名为《颠覆性技术时代的道德:运营...
日期:07-10
天津上线20个助老暖心车站 老年人可一键呼叫出租车_天津老年人免费乘车
  经过5个月的试运行,2月5日,天津市交通运输委员会正式发布“天津出租”。   “天津出租”由天津市交通运输委员会和高德地图合作开发,是天津市的官方出行平台,也是天...
日期:07-16
美团最近的活动「美团发布国庆“即兴度假”报告 本地游周边游搜索量大涨440%」
  上证报中国证券网讯(记者 温婷)美团9月27日发布的最新数据显示,国庆假期前一周,“本地游、周边游”等关键词搜索量环比暴涨440%;北京、上海、南京、苏州、广州、成都、深圳、...
日期:09-30
小米推出eSIM手机 售价超过5000元_小米移动支持esim吗
中关村在线消息:今年美版的iPhone 14系列首次取下了SIM卡槽,改为eSIM。今日小米也推出了旗下首款eSIM手机小米12T Pro。小米12T Pro的起售价为750欧元,折合人民币超过5000元,10...
日期:10-21
OpenAI 已针对 ChatGPT 和 GPT-4 错误率上升问题进行修复_open diag failed
7月7日消息:人工智能研究机构 OpenAI 表示,已针对生成式 AI 技术 ChatGPT 的错误率上升进行了修复。OpenAI 在网站上表示,已针对 ChatGPT 和 GPT-4 错误率上升进行了修复。目...
日期:07-07
李彦宏:百度文心一言和ChatGPT差距也就一两个月
日前,百度正式发布了自己的AI大模型文心一言”,李彦宏在发布会上表示,目前百度是全球大厂中第一个做出对标ChatGPT产品的企业。近日,李彦宏在极客公园的直播中表示,文心一言差不...
日期:03-26
曝iPhone 15 Pro/Pro Max将采用新的固态统一音量按键
IT之家 3 月 4 日消息,多个爆料表明,苹果 iPhone 15 Pro 和 iPhone 15 Pro Max 将进行一些设计更改,设备侧面的音量控制可能是固态的统一或单一的按钮。YouTube 博主 ZoneOfTec...
日期:03-04
Fortinet 谢青:唯有实现网络与安全融合,才能适应当今快速发展的数字市场
通信世界网消息(CWW)近日,Fortinet公布最新财报,Fortinet 创始人、董事长兼首席执行官谢青,专门就公司2023 年一季度业绩、安全和网络融合的独特方法以及网络安全领域未来愿景,畅...
日期:05-26
卫星科技下载「卫星,未来太空数据的「智能平台」」
想让太空数据服务普通人,需要给卫星装上「新大脑」。作者 | Founder Park俄乌战争中,SpaceX 的星链突然成为了大众的关注点。在战争开始后,马斯克迅速为乌克兰开启了星链服务,很...
日期:09-05
小米13Ultra外观首曝,微曲屏幕,影像模组薄了「小米13ultra最新消息」
4月13日消息,徕卡相机公司移动业务副总裁Marius Eschweiler晒出的照片当中,意外出现了新机小米13 Ultra的身影。家乐福又要卖掉京东在泰国推出电商平台苹果因取消充电插头在巴...
日期:04-13