您的位置:首页 > 互联网

微软写了份GPT-4V说明书:166页讲解又全又详细,提示词demo示例一应俱全 | 附下载

发布时间:2023-10-09 10:44:10  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:克雷西 萧箫,授权转载发布。

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

有网友感慨:这哪里是论文,这简直快成一本166页的小书了。

还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?

这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”。

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:

但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识

图像识别

最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

△左:纽约时代广场,右:京都金阁寺

不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。

除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

△机器翻译,仅供参考

不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

甚至是手写的数学公式:

图像推理

前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。

如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。

上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。

图片标注

除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

动态内容分析

除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。

甚至是预测接下来会发生什么:

“现场学习”

GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:

真的要来了!华为P50售价疑似曝光,网友:我能买的起吗?

紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:

然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。

只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔

这篇论文的作者一共有7位,均为华人,其中6位是核心作者。

项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。

她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

淘宝联盟双十一预售返利

她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:

https://arxiv.org/abs/2309.17421


返回网站首页

本文评论
Trias落地日本,迈出国际化新步伐
  选择出海日本的中国区块链项目为数众多,但很多项目在当地会出现应者寥寥的情况,无法实现有效落地。近日,同样出海日本的Trias项目,其亮相就受到了当地知名企业和机构的关注...
日期:01-04
个人如何网上卖保险_个人不能在网上卖保险 保监会规范网上销售保险
  越来越多的保险公司开始考虑在网上销售一些简单的保险产品。记者昨天从保监会获悉,保监会已经公布了《互联网保险业务监管规定(征求意见稿)》,其中规定了保险从业人员不能...
日期:07-27
毫末智行融资情况_数亿Pre-A轮融资 毫末智行为何被头部资本青睐?
  日前,毫末智行顺利完成Pre-A轮融资数亿人民币,投资方包括首钢基金、美团、高瓴创投,据毫末CEO顾维灏介绍,募集资金将主要用于人才引入、技术升级和云端基础设施硬件研发等...
日期:07-16
庞大产能成最大累赘 手机产业链阵痛加剧_手机全产业霸主
集微网消息,即便是近期手机市场有些许订单下来,但手机上游供应商们似乎也高兴不大起来。“现在手机市场上有释放一些项目出来,但是ODM厂商给出的目标价太低。”针对如今的智能...
日期:10-03
哈啰城市经理划破70辆美团电单车坐垫,被行政拘留10日_哈罗出行单车押金
7月27日消息,据《春城晚报》报道,近日昆明盘龙区栗树头派出所破获了一起共享电单车坐垫破坏案件。   5月16日凌晨,盘龙区栗树头派出所接到报案称,有大量电单车坐垫遭锐器划破...
日期:07-31
天文学家发现对地球具有潜在威胁的天体:直径1.5公里「人类可观测到的最远天体距离地球约」
据最新报道,一个国际团队使用智利托洛洛山美洲天文台Vctor M.Blanco 4米望远镜上安装的暗能量相机(DECam),发现了3颗隐藏在太阳强光中的近地小行星(NEA)。三名科学家分享2021年诺...
日期:11-06
火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆「火山引擎 logo」
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:明敏,授权转载发布。火山引擎刚刚交出大模型趋势答卷:火山方舟,一个大模型服务平台。它将国内多个明星大模型放在平台上,如Min...
日期:06-29
独家|抖音旗下内容社区“可颂”APP重新上架App Store_可颂简介
谷歌pixel4支持的网络参数鱼跃血氧仪好吗来源|Tech星球文|陈桥辉Tech星球获悉,抖音旗下内容社区APP“可颂”,已于3月31日重新在App Store上架。据悉,可颂是抖音旗下的内容社区,...
日期:04-03
为什么建议你尽快跳入AI应用大潮「为什么建议你尽快跳入ai应用大潮模式」
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:李明顺,授权转载发布。许多创业者和投资人已将当下类比为“iPhone时刻”,意即在智能手机的加持下,无数造福用户的新应用...
日期:09-12
15 Pro加价也买-外媒_苹果三年来最大升级 「iPhone」「#iphone15pro#」
按照惯例,苹果将继续在今年9月举办一年一度的秋季新品发布会,有传言称发布会将于9月12日举行,届时全新的iPhone 15系列将正式与大家见面,不出意外的话该系列将继续推出包含iPhon...
日期:09-10
天猫精灵系列产品「天猫精灵大模型开放内测 Sound系列用户可优先体验」
7月5日 消息:今日是天猫精灵6周年。天猫精灵表示,即日起至7月10日,通过天猫精灵App首页Banner或点击首页搜索入口进入“精灵大模型开放内测”页面申请报名,即可体验升级后更聪...
日期:07-05
苹果换电池会影响价格吗「苹果涨价!过保电池更换收费增加20美元!」
苹果公司在其网站上宣布(通过Reddit),今年晚些时候将提高所有iPhone 14以上机型的保修期外的电池更换价格。苹果还将提高iPad和Mac电池的更换价格。软银愿景基金二期苹果公司表...
日期:01-03
助力爆款H5游戏出海,华为云为九翎网络开辟“云上丝绸之路”
  当下,新兴技术层出不穷。对于各行各业而言,5G都是值得关注的热门。5G高速率、低时延的特性无疑将给娱游产业带来巨大变化,同时也将催生颠覆各种行业的应用体验。作为游戏...
日期:12-10
安卓1英寸恐怖大底 罕见3.5mm耳机孔!夏普AQUOS R8s Pro发布:7400元「夏普的耳机怎么样」
快科技9月15日消息,夏普正式推出新款高端旗舰AQUOS R8s Pro和AQUOS R8s。其中AQUOS R8s Pro后置1英寸怪兽级大底主摄,有效像素数量是4720万,光圈为f/1.9。1英寸主摄旁边是一个1...
日期:09-15
索尼半导体CEO:智能手机CIS每年需求约50亿颗 未来重点布局车用CIS_手机cis芯片
10月31日消息:据日经新闻报道,索尼半导体CEO清水照士日前接受专访时表示,即使智能手机市场已经见顶,每年的销量也有 12 亿- 13 亿部,加上3- 4 个CIS,所以智能手机CIS每年有 50 亿...
日期:10-31
天猫精灵获AI最高奖,阿里成力:技术领先是销量夺冠基础_天猫精灵与阿里智能
  11月30日,第九届吴文俊人工智能科学技术奖颁奖典礼暨2019中国人工智能产业年会在苏州举行。阿里巴巴旗下天猫精灵作为唯一的智能音箱品牌入选“吴文俊人工智能科技进步...
日期:12-15
Redmi 平板直降 500 元 仅需799_红米平板预计发布时间
7月7日 消息:红米平板电脑Redmi Pad现在迎来了降价,原价为 1299 元,现在直降 500 元,只要 799 元。而且,学生购买还能再享受 50 元的优惠。Redmi Pad的亮点在于它配备了一块10....
日期:07-07
金山毒霸2008_金山毒霸2011 SP5版力保网购无忧
  金山毒霸是拥有自主知识产权完全免费的专业杀毒软件,已在信息安全领域耕耘了13个年头。金山毒霸的一项发明专利(专利号:200510036275.1)近期获得国家专利优秀奖。   20...
日期:07-25
小米11 ultra 镜头「Ultra能力全面下放!小米13系列采用12 Ultra同款徕卡光学镜头」
小米13系列&MIUI14新品发布会正式定档12月1日(周四)晚七点,官方今天对小米13系列的影像能力进行了预热。小米手机表示,这是一次Ultra能力的全面下放,也是一次徕卡影像的全面传承...
日期:12-01
联想杨元庆谈ChatGPT:背后需要普慧算力基础设施
2月24日消息,联想集团董事长兼CEO杨元庆在联想创投CEO年会上表示,打造“技术联想”一直是联想的创业初心。面对全球政经环境的变幻,面对技术和产业周期的日新月异,坚持用技术创...
日期:02-25