您的位置:首页 > 互联网

用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

发布时间:2023-11-27 18:23:10  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:白交,授权转载发布。

用视觉来做Prompt,是种什么体验?

只需在图里随便框一下,结果秒秒钟圈出同一类别!

即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。

新的目标检测范式,有了!

刚刚结束的IDEA年度大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了最新研究成果——

基于视觉提示(Visual Prompt)模型T-Rex。

整个流程交互,开箱即用,只需几步就可以完成。

此前,Meta开源的SAM分割一切模型,直接让CV领域迎来了GPT-3时刻,但仍是基于文本prompt的范式,在应对一些复杂、罕见场景就会比较难办。

现在以图换图的方式,就能轻松迎刃而解。

除此之外,整场大会也是干货满满,比如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等等。

最后,沈向洋还分享了过去几年时间花时间最多的一个项目:低空经济。

我相信当低空经济发展到相对成熟时,同一个时间点,在深圳的天空中每天有10万架无人机,每天飞起来的有百万架无人机。

用视觉来做Prompt

除了基础的单轮提示功能,T-Rex还支持三种进阶模式。

  • 多轮正例模式

对抗英伟达,英特尔20亿美元收购AI芯片企业

有点像多轮对话,以得出更为精确的结果,不至于出现漏检的情况。

  • 正例+负例模式

适用于视觉提示带有二义性造成误检的场景。

* 跨图模式。

用单张参考图提示,来检测其他的图。

据介绍,T-Rex不会受到预定义类别限制,能够利用视觉示例指定检测目标,这样一来就克服有些物体难以用文字充分表达的问题,以提高提示效率。尤其像一些工业场景中的复杂组件等。

除此之外,通过与用户交互的方式,也可以随时快速地评估检测结果,并进行纠错等。

中国工程院院士邬贺铨:5G技术很不成熟、运营成本极高

T-Rex主要由三个组件组成:图像编码器、提示编码器以及框解码器。

这项工作来自IDEA研究院计算机视觉与机器人研究中心。

该团队此前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型;在Github上大火(至今狂揽11K星)的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM。更多技术细节可戳文末链接。

宏碁2018发布哪些显示器

wifi穿墙能力差和wifi有关吗

整场大会干货满满

除此之外,IDEA大会上还重点分享了几个研究成果。

比如Think-on-Graph知识驱动大模型,简单来说就是将大模型与知识图谱结合。

大模型擅长意图理解和自主学习,而知识图谱因其结构化的知识存储方式,更擅长逻辑链条推理。

Think-on-Graph通过驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短。

MoonBit月兔,这是由Wasm驱动,专为云计算与边缘计算设计的开发者平台。

它不仅提供通用程序语言设计,还整合了编译器、构建系统、集成开发环境(IDE)、部署工具等版块,来提升开发体验与效率。

此前发布的科研神器ReadPaper也更新至2.0,发布会现场演示了阅读copilot、润色copilot等新功能。

发布会最后,沈向洋发布《低空经济发展白皮书——深圳方案》,在其智能融合低空系统(Smart Integrated Lower Airspace System,SILAS)中,提出时空进程(Temporal Spatial Process)新概念。

T-Rex链接:

https://trex-counting.github.io/

—完—


返回网站首页

本文评论
快手电商618大促前三天订单量同比增长超70%_11月6日快手卖货节排名
6月5日消息,近日,快手电商发布618战报。数据显示,6月1日-6月3日,快手电商订单量同比去年增长超72%,买家数同比去年增长超50%,品牌商品GMV同比去年增长超222%,短视频挂车GMV同比去年...
日期:06-06
TikTok Shop封禁背后:焦急的卖家,狂喜的本土电商_tiktok被出售
本文来自微信公众号:霞光社(ID:Globalinsights),作者:衡之,编辑:刘景丰,头图来自:视觉中国距离TikTok Shop在印尼被封禁已经一周了,但争论还在发酵。当许多人把目光聚焦已经“乱成一锅...
日期:10-13
马斯克父亲称儿子收购推特想法“很天真”:提醒过他注意虚假账号
讯 北京时间8月8日早间消息,据报道,特斯拉CEO埃隆·马斯克的父亲埃罗尔·马斯克(Errol Musk)表示,马斯克收购推特的想法有点天真。   老马斯克也表示,他从未质疑过埃隆·马斯克(E...
日期:08-09
比特币价格短暂冲上20000美元:上涨仍面临压力_比特币今日价格跌破8000美元
  讯 北京时间9月28日早间消息,据报道,当地时间周二,比特币价格短暂站上20000美元,冲至一周多新高,但上涨仍然面临压力。由于美国股市渐渐进入熊市,比特币价格最终还是下跌。从C...
日期:09-28
获奖低拒领奖!学生自掏30万拍作品火了:完整版让网友争论不断
或许她自己也没想到,作品会这样火了。2023年青岛电影学院“金象奖”颁奖典礼现场,一名获奖女生上台抢过话筒表示拒绝领奖引发关注。期间,主持人曾靠近并轻声劝道“这个事可以私...
日期:06-22
华为P60发布时间曝光 影像实力或更强_华为p60大概什么时候上市
中关村在线消息:今日,微博博主曝光了华为P60系列的发布时间为明年第一季度,此前传出出的华为P60渲染图真实性存疑。该渲染图显示,华为P60采用了与P50相同的万象双环设计,正面屏幕...
日期:10-11
离职前月薪不足一万 工作21小时!孟羽童去年统计为格力带货近400万
快科技5月12日消息,孟羽童已经公开发布视频回应,离职后下一阶段将继续读书,申请研究生。按照孟羽童在社交平台发布的视频所说,她入职格力电器后一方面需要贴身跟随董明珠的日常...
日期:05-13
魅族智能座舱和手机的N种连接方式:5大靠谱设计公布
前段时间,魅族曾召开了主理人计划,其中,FlymeAuto主理人计划已经实施,由用户和FlymeAuto工程师共同参与,讨论下一代智能座舱的解决方案,以及对现有座舱系统的改进建议。今日,Flyme...
日期:11-26
QuickSight结合LLM能力推出生成式BI功能 「Amazon」
【】8月7日消息,亚马逊云科技宣布,正在将Amazon Bedrock提供的大语言模型能力与支持自然语言问答的Amazon QuickSight Q相结合,在Amazon QuickSight中提供生成式BI功能。该功能...
日期:09-18
2022胡润女企业家榜出炉:圆通速递张小娟新上榜
12月12日 消息:今日,胡润研究院携手商界女性成长与社交平台红颜会今日联合发布《2022红颜会·胡润女企业家榜》(Herose Club·Hurun Richest Women in China2022),列出了今年胡...
日期:12-12
nvidia平台软件「NVIDIA联手软银   AI驱动通信的时代或将到来」
通信世界网消息(CWW)2023年,整个科技界最令人兴奋的莫过于ChatGPT引发的生成式AI风潮以及NVIDIA市值破万亿美元,前者打开了人们对未来的想象,而后者成为第一个破万亿美元的芯片公...
日期:06-16
88岁儿子与110岁母亲手拉手逛茶会:披露长寿秘诀
10月15日,福建泉州安溪县,110岁高龄的老人林妹与88岁的儿子王金器手拉手来到茶会,引来众人围观,纷纷送上祝福。在茶会现场,1913年出生的林妹老人步伐稳健,脸上总是挂着笑容,与人交...
日期:10-21
airpods pro听语音断断续续「AirPods Pro 2再翻车:用户反馈存在音频同步问题」
自从苹果推出AirPods Pro 2以来,这款理论上应该是苹果目前最强TWS耳机的产品,就被各种让人摸不着头脑的问题环绕。近日,又有用户在Reddit上反馈,称自己的AirPods Pro 2出现了音...
日期:10-14
大型网商配送集中降速 个人卖家物流环节告急
  在实体商业忙于在年底冲击销售之时,网购企业老总思考的却是如何按时把货品送到顾客手中。记者昨日发现,不仅一些采取第三方物流的淘宝卖家挂出快递延误提醒公告,就连京东...
日期:07-25
顺丰同城:上半年净亏损1.44亿元_顺丰集团亏损
查看最新行情 带你去撒欢iphone7plus双摄像头  顺丰同城8月30日公告,上半年收入约44.81亿元,同比增长20.8%;净亏损及净亏损率分别为1.44亿元及3.2%。...
日期:08-31
华为m7「华为m7汽车价格图片大全」
华为M7是华为公司推出的一款平板电脑产品。主要特点是采用了全面屏设计和独立的协处理器,使得性能表现更加出色。华为M7配备了麒麟990系列处理器,拥有较强的计算能力和数据处...
日期:05-31
武大版ChatGPT问世:能写诗编代码 现已开启内测招募
ChatGPT在短期内迅速爆红,可以提供课程教学大纲、做作业、编程序、写论文等,深刻影响教育界,引发不少高校纷纷禁用之。而今天,武汉大学宣布武大版ChatGPT大模型开启内测招募,内测...
日期:05-25
谷歌打造专业投资团队 为未来收购做准备(谷歌投资京东)
  《商业周刊》文章指出,去年秋季,谷歌官方网站上登出了一些罕见的招聘启事。招聘的对象除了程序员和工程师之外,还包括证券交易员和证券组合产品分析师。 今年春季,许多科技...
日期:07-29
腾讯离职元老的内部邮件:马化腾的有趣故事(马化腾回复邮件)
  9月21日消息:在中国,马化腾这个名字可谓家喻户晓。1993年马化腾毕业于深圳大学电子系计算机专业,1998年11月他注册并创立了腾讯公司,1999年2月腾讯正式推出第一个即时通信...
日期:07-23
物联网产值「产业规模接近3万亿元 物联网应用不断拓展广度深度」
企业数量超过8000家,产业规模接近3万亿元物联网应用不断拓展广度深度河北廊坊临空经济区,每根灯杆、每个水表、每张管网都是一个“触角”。“物联网大脑”汇集实时数据后,可进...
日期:09-20