您的位置:首页 > 互联网

比OpenAI更快一步,最新开源的MiniGPT-4模型可让开发者提前感受GPT-4识图能力!

发布时间:2023-04-19 22:53:23  来源:互联网     背景:

声明:本文来自于微信公众号 CSDN(ID:CSDNnews)),整理 |屠敏,授权转载发布。

迄今为止,GPT-4凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI在推出 GPT-4时虽然引入了对图像理解的能力,但并没有在除了 Be myEyes(针对盲人或弱视人士的应用程序和服务)应用程序之外的任何地方提供此功能。

GPT-4对图像理解能力的示例详见:

用户:这幅画有什么好笑的地方?逐一描述它的板块。

图片

图片来源:https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

GPT-4:图片显示的是一个 "Lightning Cable "适配器的包装,有三个板块:

板块1:一部智能手机,VGA 连接器(通常用于电脑显示器的大型蓝色15针连接器)插在其充电端口。

板块2:"Lightning Cable "适配器的包装上有一张 VGA 接口的图片。

板块3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片的幽默感来自于将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。

近日,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队推出了一款名为 MiniGPT-4的新模型,以开源的形式提供了此功能。

研究人员还透露,MiniGPT-4具有许多类似于 GPT-4所展示的功能,下文我们也将分享相关的实例。

可执行复杂的视觉语言任务的 MiniGPT-4

该团队发现尽管 GPT-4表现出非凡的能力,但是其特殊能力背后的方法并不为众人所熟知。因此,他们提出「GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)」这一想法。

为了验证这一想法,他们便提出了 MiniGPT-4模型。

根据研究团队发布的论文显示,为了构建 MiniGPT-4,研究人员使用了基于 LLaMA 构建的 Vicuna 作为语言解码器,并使用 BLIP-2视觉语言模型作为视觉解码器。

其中,Vicuna 和 BLIP-2都是开源的。这意味使用开源软件可以用较少钱进行训练和微调,并且没有海量数据和开销,这也是为什么这个模型加上了“mini”的前缀。

图片

在实验中,该团队发现只对原始图像-文本对进行预训练会产生不自然的语言输出,包括重复和零散的句子,缺乏连贯性。为了解决这个问题,其在第二阶段策划了一个高质量、一致性好的数据集,利用对话模板对此模型进行微调,这一步被证明对提高模型的生成可靠性和整体可用性至关重要。

具体来看,研究团队分两个阶段训练了MiniGPT-4模型。

第一阶段,研究团队首先在四张 NVIDIA A100显卡上利用了大约500万个对齐的图像-文本对,让 MiniGPT-4进行了十个小时的训练。在第一阶段之后,Vicuna 能够理解图像。但是 Vicuna 的生成能力受到了很大的影响。

为了解决这个问题并提高可用性,研究人员提出了一种通过模型本身和 ChatGPT 一起创建高质量图像文本对的新方法。因此,展开了第二阶段的微调训练,该模型使用 MiniGPT-4和 ChatGPT 之间的交互生成的3,500个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4生成的不正确或不准确的图像描述。

这一步显著提高了模型的可靠性和可用性,MiniGPT-4能够连贯地和用户友好地谈论图像,并且只需要在单个 NVIDIA A100上进行七分钟的训练。让研究人员自己都感到惊讶的是,这个阶段的计算效率很高。

全球顶级域名注册局官网

图片

MiniGPT-4架构

MiniGPT-4Vicuna 的语言模型遵循 "Alpaca 公式",使用 ChatGPT 的输出来微调 LLaMA 系列的 Meta 语言模型。据说 Vicuna 与 Google Bard 和 ChatGPT 相当,同样只需相对较小的训练工作量。

当前,该研究团队已经将 MiniGPT-4的代码、预训练的模型和收集的数据集在 GitHub 上开源:https://minigpt-4.github.io/。

apple watch配对新iphone

拥有和 GPT-4相似的图片解析功能

智能ai会取代人类吗

rtx3060支持4k吗

正如开头所述,该研究团队推出的 MiniGPT-4拥有和 GPT-4相似的功能。譬如:

给它一张图,便能生成详细的图像描述:

图片

也能讲出图片中搞笑、有趣的部分:「星期一通常被认为是一周中最令人恐惧的一天」。

图片

还能在进一步交互中发现不寻常的内容,如:虽然仙人掌有可能在寒冷的气候条件下生长,但很少看到仙人掌生长站在冰冻的湖泊中间。此外,水面上形成的大冰晶也不是常见的现象。

于是,MiniGPT-4给出了自己的见解:这张图片很可能是数字创作或操控的。

图片

当然,和 GPT-4演示的一样,MiniGPT-4也能根据手绘草图生成网站:

图片

识别图像中的问题并提供解决方案:

图片

以及创造诗歌或说唱歌曲的灵感:

图片

此外,也能根据图片续写故事,给产品做广告,对图像展现的画面进行评论、检索与图片有关的事实,以及当给定一张准备好的菜肴照片时,该模型可以输出(可能)与之匹配的食谱或者生成一个适合视障人士的图像描述。

图片

开源类 GPT-4模型层出不穷

鉴于 OpenAI 没有透露太多关于 GPT-4架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法的细节,强大的 LLM 的开源 MiniGPT-4可能在研究方面具有重要意义。

对于 MiniGPT-4的到来,也引发了一些 HN 网友的热议,有网友表示:

在技术层面上,这个研究团队正在做一些非常简单的事情--将 BLIP2的 ViT-L+Q-former,用一个线性层连接到 Vicuna-13B,并在一些图像-文本对的数据集上只训练这个小层。

但结果是相当惊人的。它完全打败了 Openflamingo 和甚至原始的 blip2模型。最重要的是,它比 OpenAl 的 GPT-4图像模态更早到达。(这是)开源人工智能的真正胜利。

也有媒体评价到,「MiniGPT-4是开源社区在很短时间内取得快速成功的另一个案例。前几天,开源聊天机器人 OpenAssistant推出,使用从志愿者那里收集的指导数据进行训练,并打算最终成为一个 ChatGPT 的开源平替。这表明纯AI 模型公司的护城河可能没有那么高。在这种趋势下,对于 OpenAI 公司而言,首先应该专注于使用 ChatGPT 插件为 GPT-4建立一个合作伙伴生态系统,而不是现在就训练 GPT-5,这是有意义的。」

事实上,除了OpenAssistant、MiniGPT-4之外,GitHub 上也有网友盘点了近段时间来诞生的许多开源模型(https://github.com/nichtdax/awesome-totally-open-chatgpt),如Databricks 推出的 Dolly 模型、类 ChatGPT 的PaLM-rlhf-pytorch、OpenChatKit 等等,为此,你认为开源大模型在此趋势下会迎来什么样的发展机遇?欢迎留言分享你的看法。

关于 MiniGPT-4模型的更多内容可参考:

项目地址:https://minigpt-4.github.io/

GitHub地址:https://github.com/Vision-CAIR/MiniGPT-4

论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

参考:

https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/


返回网站首页

本文评论
团购网站Groupon确认融资近10亿美元 已完成一半(美国团购网站groupon现状)
  团购网站Groupon周四确认,计划在最新一轮融资中募资9.5亿美元,目前已完成5亿美元。   该网站在提交给美国证券交易委员会的一份文件中披露了此次融资。   上个月有消...
日期:07-25
可重复使用10次以上 中国130吨级液氧煤油发动机试车成功「中国五百吨级液氧煤油发动机」
最近一段时间,我国在航天发动机上不断取得突破,不仅500吨级重型火箭试车成功,现在可重复使用火箭发动机也有了进展,130吨级可重复使用泵后摆液氧煤油发动机首台两次起动试车圆满...
日期:12-04
智能音箱声渐默「智能音箱互动」
声明:本文来自于微信公众号“光子星球”(ID:TMTweb),作者:熊 星,编辑:吴先之,授权转载发布。无论有屏无屏,智能音箱的2022年注定要在寒冬中结束了。IDC数据显示,2022年上半年中国智...
日期:01-07
京东荣耀签订5G服务战略合作 上京东11.11体验5G生活
  10月9日,京东与荣耀签订2019年5G服务战略合作备忘录,京东集团副总裁、京东通讯事业部总裁姚彦中和荣耀国内销售与服务部部长倪嘉悦代表双方出席会议并且签约。基于京东...
日期:04-07
groupon上市市值_专家预计Groupon上市时间或推迟至夏末秋初
6月17日消息,据国外媒体报道,自从Groupon提交IPO文件以来,业内权威人士和分析师一直很关注它的财务数据,同时对其长期增长性提出了严重质疑。虽然Groupon自己希望快速推进IPO计...
日期:07-30
二手iPhone14贬值速度是13两倍,新款用户哭晕_iPhone14值得等吗
中关村在线消息:10月14日,据相关爆料,iPhone14机型的贬值速度将超过iPhone13,其中主要包含iPhone14与iPhone14 Plus这两款产品。有分析师称,生命周期和经济周期叠加,苹果创新又没...
日期:10-21
赶快买起来!华为Mate 50官网新增现货速发「华为mate 40抢购技巧」
今日华为官网显示,华为Mate 50部分版本新增了“现货速发”的选项,喜欢华为手机的小伙伴儿可以赶快抢起来了。华为 Mate 50巴黎饰钉设计,更显高端优雅,有冰霜银、耀金黑、流光紫...
日期:11-12
终究是错付了?华为Mate50系列或放弃瀑布屏,曲面屏为何被嫌弃?「mate40系列都是瀑布屏吗」
在智能手机市场,不同的消费者有不同的需求,比如,有人偏爱大电池,有人偏爱快充,有人偏爱大屏幕,有人偏爱高性能。但有一点很奇怪,在直面屏和曲面屏的偏好上,大部分消费者都嫌弃曲面屏...
日期:09-18
iOS/iPadOS 16细节曝光:加强多任务模式
  5月27日消息,随着WWDC开发者会议的到来,iOS/iPadOS 16的更多细节被曝光,从目前的情况来看,新系统将加强多任务。  最新爆料称,将要发布的iPadOS 16将进一步加强包括允许...
日期:07-18
传惠普考虑出售webOS业务 甲骨文或接手
  11月8日消息,据国外媒体报道,相关人士透露,惠普正在考虑出售webOS业务,售价有望达到数亿美元,但可能会低于该公司2010年收购Palm时的12亿美元。   相关人士称,惠普已经聘请...
日期:07-24
支付宝股权变更后续影响发酵  双方各执一词_支付宝的持股构成
5月14日上午,在香港举行的阿里巴巴公司(1688.HK)股东大会上,阿里巴巴集团董事局主席马云称,支付宝问题还在与雅虎方面讨论中,未最终尘埃落定。 阿里巴巴与雅虎关系愈发紧张的起...
日期:07-28
小米王翔:小米汽车实现 2024 年正式量产的目标进展非常顺利_小米集团 王翔
11月24日消息:小米集团发布截至2022年9月30日的第三季度财报。财报显示,小米集团第三季度营收704.7亿元人民币,上年同期780.63亿元,同比下滑9.7%,环比上涨0.4%;净亏损14.74亿元,...
日期:11-25
2800亿美元《芯片法案》,究竟安的什么心?「美国对芯片的制约」
当下,全球芯片产业链早已深度融合,完全“脱钩”纯属逆流而动,并不现实。曾经的自由贸易倡导者,如今却把产业当作地缘政治工具,大搞经济胁迫。北京时间8月9日晚间,美国总统拜登正式...
日期:09-18
字节「派对岛」之外,这5款元宇宙新品同样有趣
声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:辛童,授权转载发布。万人蹦迪、千人躲猫猫、百人观影,正在元宇宙里慢慢变成现实。尽管关于元宇宙是否真的可以成为“下...
日期:08-03
接入游戏引擎,淘宝为了流量可谓煞费苦心
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。此前在今年早些时候,QQ搭载虚幻4游戏引擎的消息曾引发了广泛讨论,许多朋友纷纷感叹找到了APP越变...
日期:12-17
2019年金秒奖赛制升级  设立300万创作基金启动三大垂直赛道
  1月22日,西瓜视频主办的“金秒奖”2018年第四季度颁奖礼暨年终盛典在厦门圆满落幕。西瓜视频总裁张楠、著名演员梁静、青年演员俞灏明、影视策划人周黎明等人和数百位短...
日期:06-08
腾讯控股买入_腾讯控股回购股份111万股,耗资约3.51亿港元
苏宁易购会员权益有哪些4399游戏盒单机小游戏小米生态链企业未来居打造宁夏银川星途智能酒店项目 查看最新行情   原标题:腾讯控股8月19日回购股份111万...
日期:08-21
特斯拉Semi卡车「为交付Semi卡车做准备 特斯拉招募技术服务人员」
9月5日消息,上月美国电动汽车制造商特斯拉首席执行官埃隆·马斯克(Elon Musk)证实,公司将于今年晚些时候开始交付电动卡车Semi。特斯拉官网发布的招聘信息显示,公司正在为“Semi...
日期:10-30
诺基亚股市行情_诺基亚股价重挫被剔出Stoxx欧洲50指数
新浪科技讯 北京时间9月17日上午消息,在市值大幅缩水后,诺基亚的声誉将再次遭到重大打击,该公司将被剔除出针对欧洲最大公司设立的STOXX Europe 50基准指数。 诺基亚今年以来...
日期:07-23
苹果12pro充电的时候卡「iPhone14Pro被曝充电时重启 且部分iPhone14Pro卡槽只能用单卡」
9月28日 消息:最近,iPhone14Pro被曝出的问题有点多。此前,一些用户抱怨iOS16电池电量易耗尽,而更严重的问题是,他们的iPhone14Pro在通过MagSafe或Lightning充电时会间歇性重启。...
日期:09-28