您的位置:首页 > 互联网

微软开源多功能视觉模型Florence-2,分割、识别一切图片!_微软视觉用来干什么

发布时间:2024-11-16 12:43:03  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。

微软视觉挑战

微软Azure AI 团队宣布开源视觉模型——Florence-2。

据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。

微软视觉用来干什么

例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。

Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。目前,Florence-2的总下载量已超过120万非常火爆。

开源地址:https://huggingface.co/microsoft/Florence-2-large

在线demo:https://huggingface.co/spaces/gokaygokay/Florence-2

Florence-2之所以拥有如此多的视觉功能和强大的泛化能力,是因为使用了一个超大的数据集FLD-5B,包含1.26亿张图像和54亿个数据标注。

同时该数据集使用了自动化图像标注技术与模型迭代的结合,通过多个模型协作确保了数据的高质量和多样性。

模型架构方面,Florence-2基于Transformer并采用了序列到序列(seq2seq)的学习方法,模型的这一部分由编码器和解码器组成,编码器负责将图像转换为序列表示,而解码器则将这些表示转换为输出文本。

微软视觉挑战

这种设计不仅提高了模型处理任务的灵活性,也使得模型能够以一种统一的方式来处理各种视觉任务。

其他关键模块包括:图像编码器,主要负责将输入图像转换为视觉token嵌入;Florence-2使用DaViT作为图像编码器,这种编码器通过注意力机制捕捉图像特征,为后续的处理提供了丰富的视觉信息。

多模态编码器-解码器,采用标准的Transformer架构,通过自注意力机制实现多模态信息的融合。这种融合使得模型能够更好地理解和生成与视觉内容相关的文本。

六月份还能挖以太坊吗

位置编码,为Florence-提供了区域级别的空间信息,在目标检测和分割等任务中尤为重要,使得模型能够识别图像中的具体区域。

统一表示则是Florence-2的一大创新亮点,可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等,整合到一个统一的框架中,帮助模型在不同的任务之间共享知识,提高学习效率。

为了评测Florence-2的性能,研究人员在COCO、ADE20K、Flickr30k Entities等知名基准测试平台进行了综合评估。

结果显示,Florence-2在零样本学习和微调学习设置下都展现出了卓越的性能,例如,在COCO目标检测和实例分割任务中,它超越了先前的最佳模型,显示了更强的识别精度和分割能力。

在ADE20K语义分割测试任务中,模型也展示了优越的表现,表明其不仅在高层语义理解上有出色表现,对于底层细节的捕捉同样精准。

尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。


返回网站首页

本文评论
失望?华为秋季发布会为何没有提及Mate60?_华为mate不发布
9月25日,华为举行了秋季全场景新品发布会,推出了多款新品,包括华为智慧屏V5 Pro、华为MatePad Pro 13.2英寸、华为FreeBuds Pro 3等。然而,许多消费者和媒体关注的华为Mate60系...
日期:09-26
芯片“国家队”发布服务器CPU散热解决方案白皮书_服务器芯片国产化
随着集成电路制造技术和工艺水平的不断提高, CPU日渐朝着高集成化、小型化和多功能化趋势发展, 导致CPU的热量急剧增加。高温环境下,芯片的老化率、损耗率和故障率都成倍上升,影...
日期:12-27
2020年淘宝直播数据「淘宝直播产业带618战报:交易额环比增长超300%」
6月28日 消息:淘宝直播日前发布产业带618战报。今年618大促期间,淘宝直播开启了为期21天的产业带源头好货专场直播,覆盖11个城市,参与商家超过1000+个直播间。特斯拉表示,这将...
日期:06-28
波士顿大学研究:为什么苹果可以在 iPhone 价格上守住底线_iphone价格差距大
美国的通货膨胀率飙升至接近 40 年来的最高水平,食品、燃料和几乎所有东西的价格似乎每个月都在上涨。智能手机可能是个例外。例如,苹果公司最近宣布了其新版本的 iPhone 和其...
日期:09-19
四川学生偷高考试卷「四川一学校十余名高考生超690分 老师激动到喊给降压药」
这两天多地的高考成绩及分数线公布了,四川绵阳一所学校取得了骄人的成绩,有10多个考生取得了690分以上的好成绩。小米空气净化/器有网友分享了这个好消息,视频中的老师面对查分...
日期:06-24
达闼机器人推出机器人大模型RobotGPT_达闼机器人 ipo
7月12日 消息:根据中国新闻网报道,达闼机器人在2023WAIC(世界人工智能大会)上宣布推出全新的机器人产品RobotGPT,该产品是行业内首个机器人多模态大模型。RobotGPT包括RobotGPT1...
日期:07-12
苹果品控排名「出货量预期下调!iPhone 15首批品控被吐槽 黄牛直言苹果没华为好卖」
快科技9月25日消息,第一批iPhone 15已经上市了,不过从用户的反馈看,并不是太理想。从不少用户反馈的细节看,iPhone 15首批问题不少,有人机身掉漆的,也有人屏幕有刮痕的(底部有磕碰),...
日期:09-25
AI视野:腾讯云AI绘画上线SaaS版本;SOLAR10.7B大模型屠榜;LG发布全新AI笔记本;麻省理工开源Stream Diffusion
新鲜AI产品点击了解:https://top.aibase.com/香肠派对ss7赛季是什么皮肤何为8k电视微店双十一...
日期:12-29
日本芯片技术「日本将为美国公司的芯片生产提供3.2亿美元补贴」
日本贸易部长周五表示,日本将向一家美国大型芯片制造商提供高达466亿日元(3.22亿美元)的补贴以支持其在广岛工厂生产先进内存芯片的计划。由于日本和美国在扩大关键材料的制造...
日期:10-02
中国空间站"太空菜园"画面公开!一片欣欣向荣_太空空间站种菜
太空种菜,挑战无限!中国载人航天工程最新消息显示,神舟十八号飞船的宇航员叶光富、李聪、李广苏已在太空驻留逾4个月。从公开的画面中可见,宇航员在空间站内开展了丰富的科学实...
日期:09-12
麦芒A20发布:5000万像素高清影像「麦芒a199」
天翼终端官方宣布,麦芒A20将于6月15日14:08正式发售,配备5000万像素高清摄像头。从海报中可见,新机器采用直角边框,后置方形影像模组,镜头位置与华为畅享50z相当类似。华为畅享50...
日期:06-14
2024抖in星品汇佳莲办公学习用品商达撮合会成功举办,共筑电商新生态
日期:[2024年8月14日]地点:北京市昌平区佳莲美城在北京市昌平区商务局的指导下, 抖音电商携手其官方指定电商产业带服务商“北京佳莲美城运营管理有限公司”,于2024年8月14日...
日期:08-20
iPhone 14 Plus京东官方店-1000 5999元限时购「iphone12pro max专卖店价格」
iPhone14 Plus的价格一降再降,原本10月7日发售当天就已经破发,目前iPhone14 Plus现在依旧是跌价的趋势,店铺中满4000立减1000的优惠券实在是太实惠了,将iPhone 14 Plus的价格直...
日期:10-27
万兆是多少「万兆进村!北京一农村开通全国首个万兆直播间」
快科技6月15日消息,全国首个万兆村播基地、暨北京市首个F5G-A万兆园区示范基地,日前在北京市平谷区正式揭幕。该基地由国农港智慧云供销村播产业园联合北京联通与华为共同打造...
日期:06-16
华为2022年研发总投入1615亿:占收入25.1% 创十年最高_华为研发投入占比多少
今天下午,华为召开了2022年年度报告会议,公开了一整年的具体数据。报告显示,2022年华为整体经营平稳,实现全球销售收入6423亿人民币,净利润356亿元,下滑68.7%。其中,华为运营商业务...
日期:04-01
上海移动对5g承载网智能化运维的探索意义「上海移动对5G承载网智能化运维的探索」
通信世界网消息(CWW)上海移动作为“自智网络”理念发起者与实践先行者之一,持续夯实网络领先优势,积极推进自智网络体系创新、能力建设与规模应用。随着网络规模逐年扩大,以人员...
日期:01-26
狂掉粉40W,又一抖音千万粉丝网红翻车「抖音超过两千万粉丝的网红」
声明:本文来自于微信公众号 微果酱(ID:wjam123456),作者:黄小曼,授权转载发布。你离网红的距离,或许只差一个短视频。短视频浪潮依旧风起云涌,流量席卷一切,每个人的成名仿佛被按下...
日期:11-28
中国联通家庭智能网关带wifi吗「中国联通启动家庭智能网关集采:规模约1190万台」
通信世界网消息(CWW)近日,中国联通发布消息称,其已启动2023年中国联通家庭智能网关集中公开采购项目。本次集采包括多种产品类型,集采规模约为1190万台。垃圾桶捡到精美礼盒美团...
日期:06-01
要招揽“世界级人才”,OpenAI宣布在伦敦设立海外分部
6月29日消息,OpenAI周三宣布在伦敦设立新办事处,这也是其在美国以外设立的首家海外分部。OpenAI人力资源副总裁黛安·尹(Diane Yoon)表示:“我们很高兴将我们的研发足迹扩展到伦...
日期:09-22
冯小刚贺岁片《非诚勿扰3》今日网播:上线爱奇艺、优酷、腾讯视频
快科技2月10日消息,今日,冯小刚贺岁片《非诚勿扰3》网播,目前已上线爱奇艺、优酷、腾讯视频等国内视频平台。时隔13年,《非诚勿扰3》于2023年12月30日上映,这也是冯小刚电影重返...
日期:02-10