您的位置:首页 > 互联网

参数小,性能强!开源多模态模型—TinyGPT-V_多模态分析框架

发布时间:2024-01-10 21:08:33  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

transformer 多模态

TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型。

此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。

所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。

开源地址:https://github.com/DLYuanGod/TinyGPT-V

论文地址:https://arxiv.org/abs/2312.16862

TinyGPT-V主要架构

TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。

高德点亮店铺需要多长时间

线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息。

TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。

第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。

TinyGPT-V训练流程

TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。

第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。

第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。

第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。

第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。

华为折叠最新款手机价格及图片

为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。

结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。

多模态代码

本文素材来源TinyGPT-V论文,如有侵权请联系删除


返回网站首页

本文评论
BLG夺《英雄联盟》MSI亚军 B站:BLG粉丝赠送一年大会员
快科技5月22日消息,在刚刚结束的英雄联盟2023季中冠军赛(MSI)决赛中,来自中国LPL赛区的JDG以3:1击败同赛区战队BLG获得2023季中冠军赛冠军,获得LPL赛区MSI第五冠。据了解,这是中国...
日期:05-22
淘宝&抖音双11,top10品牌谁在消失,谁还在榜?数据变化释放了哪些信号?「淘宝投诉电话人工客服电话」
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:Sally楠,授权转载发布。今年双11已经过去了一大半了,今年除了传统的电商平台,淘系 京东 外,抖音的双11也开启了,从10月31号到11...
日期:11-14
总是忘了开过的自动续费?支付宝推出提醒功能_支付宝解决自动扣款提醒在哪里
7月6日 消息:日常生活中,不少APP以首月特惠来吸引用户开通连续包月等形式的会员服务。但由于规则复杂,如默认自动续费,或者用户忘记关闭服务,在不经意间发生扣款,长此以往产生不...
日期:07-06
电子烟监管对悦刻「电子烟强监管一年后,悦刻还有未来吗?」
出品|虎嗅ESG组作者|陆琳编辑|袁加息头图|视觉中国本文是#ESG进步观察#系列第046篇文章本次观察关键词:公共健康、ESG负面筛选曾经风光无限的电子烟行业,在最强监管落地后一年,并未...
日期:09-06
bmw mini coopers「宝马Mini展台被曝区别对待国人 涉事冰淇淋品牌Luneurs回应」
日前,上海车展期间,宝马MINI品牌却被网友曝出区别对待国人”,引起网友关注热议。网友上传视频显示,在宝马MINI展台上,有免费领取冰淇淋的工作台,一位国人小姐姐要来领冰淇淋,结果被...
日期:04-20
特斯拉:4680电池周产超86万块 可满足1000辆Model Y用量_特斯拉4680电池容量
12月26日消息,美国电动汽车制造商特斯拉证实,上周该公司生产了86.8万块4680电池,目前这种新型电池的产量足以支持每周生产1000辆Model Y电动汽车。华为副总裁丁4680电池是特斯...
日期:12-26
b站增发新股约4.1亿美元用于回购可转债吗「B站增发新股约4.1亿美元用于回购可转债」
1月9日消息,B站宣布以26.65美元/ADS的价格,发行15,344,000股美国存托股(ADS),募集总款项约4.1亿美元。本次发行ADS所得款项中,部分用于回购公司2026年12月到期的可转债,回购票面价...
日期:01-09
Epic商城假日特卖开启:17款游戏免费领、6.7折优惠券不限量_epic免费游戏活动
快科技12月14日消息,从Epic商城官网获悉,Epic游戏商城2023年节日特卖今日正式开启,这是Epic全年最大的优惠力度。ps3模拟器amd处理器不仅带来数千款折扣游戏,还有不限量6.7折Epi...
日期:12-14
保障营商安全感 阿里联手知名进口宠物粮品牌“百利本能”击退知产流氓
  在淘宝网上代理经营进口宠物食品的申某怎么也没想到,自己卖着国外正品猫粮,居然也会被告?原来,这背后是有“李鬼”公司利用抢注商标恶意维权。   近日,浙江省杭州市中级...
日期:10-13
腿哥“大粗腿”课堂开课啦!与掠夺者 · 擎Neo玩出超神战力!
众所周知,我们亲爱的 957 同学之所以被称为腿哥,不仅是在老WE时表现炸裂,还有他退役后依然耐心给我们水友传授各种打法技巧,直播教大家排位上分各种小Tips,腿哥这条大粗腿就主打...
日期:05-04
区块链排名100「福布斯2023全球区块链50强:蚂蚁、百度、腾讯等上榜」
2月8日讯:今日,福布斯发布2023全球区块链50强,蚂蚁、百度、腾讯等中国企业上榜。红米note10pro限购...
日期:02-09
英伟达股份「股价暴涨让英伟达员工"一夜暴富",不少老员工躺平了」
12月15日消息,英伟达内部消息人士透露,公司股价不断攀升,让许多员工一夜暴富,甚至导致一些老员工进入“半退休”状态。这个问题已经引起了英伟达首席执行官黄仁勋的关注,他上个月...
日期:12-15
如何将自定义GPT快速添加到任何网站?_怎么弄gpt磁盘
本文由AI开发公司Morningside AI创始人Liam Otley分享,将为大家详细介绍如何将自定义GPT添加到任何网站。(视频教程点此查看)什么是Chat GPT和Assistant API在开始构建之前,您需...
日期:11-16
创业慧康打造AI大模型聚合产品BsoftGPT「创业慧康是什么公司」
6月20日 消息:创业慧康在互动平台表示,公司打造的BsoftGPT是AI大模型聚合产品,产品将以API调用结合本地部署的方式聚合利用通用GPT模型,同时通过本地部署embedding向量数据库以...
日期:06-20
微博将上线“用户个人资料页展示近期发帖所在地”功能_微博上线记录在哪里
  据 @微博管理员 ,微博将于未来一周上线“用户个人资料页展示近期发帖所在地”的功能。   据介绍,此功能将在“个人主页-个人资料”中展示用户最近一个月内最后一次发...
日期:07-18
Babycare捐赠价值350万物资,援助甘肃青海受灾妇婴群体
12月20日消息,北京时间12月18日23时59分,甘肃临夏州积石山县发生了6.2级地震。据媒体报道,当下震区最紧缺的是各类御寒物资和女性用品。此外,婴童纸尿裤、奶粉等母婴用品的缺口...
日期:12-20
2023腾讯全球数字生态大会文旅专场:中国乐高乐园度假区与腾讯达成战略合作
(原标题:2023腾讯全球数字生态大会文旅专场:中国乐高乐园度假区与腾讯达成战略合作) 9月8日,2023腾讯全球数字生态大会·智慧文...
日期:09-11
谷歌更新Android标志 采用3D机器人头部和新文字标记「谷歌新动作」
6月27日 消息:2019年,谷歌宣布了其移动操作系统的新品牌标识。大约四年后,Android 正在更新其徽标,使用新的文字标记和标志性机器人头部的3D 版本。这个新单词标志的开头是大写...
日期:06-27
移远通信一站式Matter智能照明/电工解决方案,让家居生活互联互通更便捷
通信世界网消息(CWW)从原始时期的钻木取火,到19世纪爱迪生发明电灯,人类对于“光亮”的追求从未停止。而伴随着社会经济的发展,人们对于照明等家居生活的追求开始从“物质层面”...
日期:09-13
米聊持续创意 “附近热点”引围观(米聊应用商城)
  在米聊进入2.0时代之后,新的亮点不断涌出。从寻找身边的人,到发现身边的事,米聊围绕着"附近热点"功能打造了一个全新的社交沟通平台,为潮男潮女们提供了更加靠谱、更贴近现...
日期:07-24