您的位置:首页 > 互联网

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

发布时间:2024-01-26 18:55:03  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。

最近,通义千问实火。

前段时间被网友玩疯的全民舞王,让AI科目三频频登上热搜。

让甄嬛、慈禧、马斯克、猫主子和兵马俑能跳舞那款AI,就藏在通义千问APP背后。

最强国产视觉语言模型了解一下

就在这几天,通义千问团队又对多模态大模型下手了——

再一次升级通义千问视觉语言模型Qwen-VL,继Plus版本之后,又推出Max版本。

Qwen-VL是阿里在2023年8月推出的具备图文理解能力的大模型,基于通义千问语言模型开发。升级后的Qwen-VL视觉水平大幅提升,对很多图片的理解水平接近人类。

并且,还能够支持百万像素以上的高清分辨率图,以及各种极端长宽比的图片。

升级版模型限时免费,在通义千问官网和APP都可体验,API也可免费调用。

评测结果显示,Qwen-VL的升级版本在MMMU、MathVista等任务上远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。

在第三方权威评测上,Qwen-VL常常与GPT-4V、Gemini携手占据业界三强,与其他竞争者拉开相当大的差距。

来源:OpenCompass

廉价iPhone

话不多说,小编立马展开实测。

多模态基础能力

首先,我们直接来了一道难度拉满的题——一张小编十年前在雪乡拍的照片。

Qwen-VL-Max不仅一眼认了出来,而且还配上了一段非常优美的描写:

房屋上覆盖着厚厚的积雪,像是童话里的小木屋。太阳刚刚升起,给雪地和房屋染上了一层温暖的色彩。远处的山峦和森林也笼罩在淡黄色的晨光中,整个场景显得宁静而祥和。

而GPT-4V则表示,由于没有具体的地标,因此无法给出确切的位置。

接下来,Qwen-VL-Max不仅数对了难倒GPT-4V的数数几个葫芦娃问题。

而且还通关了经典的计算机视觉难题——吉娃娃与松饼。

类似的毛巾卷和沙皮狗、柯基屁股与土司等等,也能顺利答出。

甚至它还可以理解给吉娃娃套上吐司这样恶搞的图片。

对于在一张图里分别辨认多个名人这类问题,Qwen-VL-Max同样能够立刻给出正确的回答。

比如刚刚当选ACM Fellow的图灵三巨头。

以及科技圈的一众大佬。

同样,它也可以精准识别出图像中的文字,即便是手写体也不在话下。

相比之下,GPT-4V却未能识别对图中毛笔写的字,而是给出了恭贺新禧大吉大利。

有趣的是,Qwen-VL-Max还能根据自己对图像的理解写诗。

比如这首根据权力的游戏中的名场面作的中文诗,就颇有意境。

而根据同一个场景作出的英文诗,也很有韵致。

视觉Agent能力

除了基础的描述和识别能力外,Qwen-VL-Max还具备视觉定位能力,可以针对画面指定区域进行问答。

比如它能在一群猫猫中准确框出黑猫。

还能在吉娃娃和松饼中框出吉娃娃。

我们标出OpenAI联创Karpathy帖子中的一个图,问Qwen-VL-Max标出的部分是什么意思。

它立马给出的正确回答:标出的部分是流程图,展现了AlphaCodium的代码生成过程。同时还给出了正确的描述。

关键信息提取处理

在实测中我们发现,Qwen-VL-Max最显著的进步之一,就是基于视觉完成复杂的推理。

这不仅限于描述内容,而是能理解复杂的表达形式。

比如,下面这道看似简单初中几何题,由于条件信息都被嵌入进了图像里的,其实难倒了不少视觉模型:

相比之下,Qwen-VL-Max直接给出了正确解答。

上下滑动查看

再比如解释下图中的算法流程图。

Qwen-VL-Max会清晰地给出整套流程的解释,包括每一步之后需要进行的步骤。

小朋友的编程题,它也能正确地理解图中的流程,转换成Python程序。

    importrandom

    # 初始化变量my_number = random.randint(1,10)guess = None

    # 猜数字循环while guess != my_number:guess = int(input("Guess a number between1and10: ")) if guess > my_number:print("Too high!")elif guess < my_number:print("Too low!")

    print("You got it!")

    直接给图表,Qwen-VL-Max就能对之做出深入分析和解读。

    论文中多复杂的图表,它都能瞬间帮我们整理成表格的形式,简洁直观。

    下方的图形推理题,它能准确推测出图四应该是星星中有一个点的图形。

    moto razr 2019

    文本信息识别处理

    这次,迭代后的Qwen-VL-Plus/Max处理图像中的文本的能力也显著提升,尤其是中文和英文文本。

    模型可以有效地从表格和文档中提取信息,并将这些信息重新格式化。

    比如,随手拍一张铺满字的药品说明书图片上传,要求它按规范格式输出文字。

    Qwen-VL-Max不仅可以准确识别出图片中文字,还可以将图中【】同步出来。

    甚至写满笔记而且还存在遮盖的扫描版文档,也能识别出来。

    通义千问在多种复杂视觉任务上的表现着实让人惊艳,背后的技术架构是怎样的?

    早在去年8月,团队就开源了基于Qwen-7B和ViT-G的Qwen-VL。

    论文地址:https://arxiv.org/abs/2308.12966

    不同于直接使用视觉语言下游任务数据集进行对齐,团队在训练初代Qwen-VL时设计了一种三阶段的训练方法。

    阶段一:预训练——将视觉编码器与冻结LLM对齐

    因为训练数据规模不足,可能导致任务泛化性能较差,所以使用大量的弱监督图像文本对数据(如LAION-5B)进行对齐。

    与此同时,为了保留LLM的理解和生成能力,还需冻结LLM。

    阶段二:多任务预训练——赋予Qwen-VL完成多样下游任务的能力

    让LLM在视觉问答、图像描述生成(Image Caption)、OCR、视觉定位(Visual Grounding)等各种任务上完成预训练。

    这里,直接用文字坐标表示位置,因此LLM能够自然地输出关注元素的位置信息。

    阶段三:监督微调——将视觉语言模型与人类偏好对齐

    收集并构造了一组多样化的SFT样本,对视觉语言模型进行了初步的对齐处理。

    可以看到,在主流多模态任务评测和多模态聊天能力评测中,Qwen-VL都取得同期远超同等规模通用模型的表现。

    Qwen-VL模型开源后,在AI社区受到了广泛的好评和推荐。

    有网友感慨道,人工智能的下一次进化来了!Qwen-VL模型巧妙地融合了视觉+文本推理,推进了多模态人工智能发展。

    还有网友表示,通义千问团队的工作非常出色和认真,尤其是新发布的版本,绝对优秀。

    当然,全新迭代后的Qwen-VL-Plus性能更是大幅提升,网友纷纷开启测试。

    比如有人发现Qwen-VL-Plus竟通过了自己的蘑菇测试(识别图片中某个特定种类的蘑菇),他表示这是第二个开源VLM模型通过这项测试。

    还有人将Qwen-VL-Plus与ChatGPT进行了对比,通义千问模型的回答更加让人印象深刻。

    AI下一个爆点:多模态视觉语言模型

    2023,是大语言模型的爆发年。

    在LLM之后,下一个爆发的赛道会在哪里?

    很多人认为,是多模态。能否实现AGI,或许关键就在这里。

    多模态模型将成为AI时代下一爆点这个论断,也得到了业界众多AI大佬的背书。

    OpenAI开发者关系主管Logan Kilpatrick曾在AI Engineer峰会上表示,2024年将是多模态模型年。

    最近HuggingFace的研究工程师在Latent Space播客采访中更进一步预测,2年内所有的LLM都将变成LMM。

    Meta公共政策专家对2024年AI预测,称LMM将不断涌现,并在多模态评估、多模态安全、多模态这个、多模态那个的争论中取代LLM。此外,LMM是迈向真正通用人工智能助手的垫脚石。

    对此,图灵奖巨头LeCun也表示赞同。

    新版ipadpro105寸评测

    过去一年中,许多人见证了多模态大模型发展的重要里程碑。

    从LLaVa、Imagebind、Flamingo,到GPT-4V、Gemini等大模型诞生,彻底改变了AI系统理解多种形式的数据,并与之交互的方式。

    在多模态大模型赛道上,国内头部科技公司阿里也在一直布局探索。

    2021年推出M6系列预训练-微调模式,到2022年发布图文模态任务统一的通用模型OFA系列,再到OFA-Sys的系统化AI学习的尝试。

    2023年通义千问大模型问世后,8月底阿里团队基于Qwen-7B打造的视觉理解大模型Qwen-VL正式开源。

    11月,阿里又开源了音频理解大模型Qwen-Audio,同时还升级了Qwen-VL,使之具备通用OCR、视觉推理、中文文本理解基础能力,还能处理各种分辨率和规格的图像。紧接着,就是Qwen-VL-Max的推出。

    李彦宏很优秀

    通义千问团队表示,他们一直以来都把开发与人类一样能听、能看、能理解、能沟通的通用AI模型作为目标。

    所有多模态大模型的迭代更新,最重要的价值就在于与落地应用相融合,重塑各个行业。

    LMM已成为AI企业关注的重点发展趋势,其泛化能力是形成完备的商业模式的关键能力之一。

    而最先迎来革新的行业,便是机器人领域。LMM将推动未来家用服务机器人更进一步走进人类生活。

    经过过去一年大模型的持续发酵,让许多人看到AI+机器人的广阔应用前景,这也是为什么许多AI大佬将2024年称之为机器人元年的原因。

    比如,谷歌DeepMind团队升级的RT-2机器人由全新的视觉语言动作模型的加持,多了一个动作模态,表现出惊人的学习能力和理解力。

    多模态大模型Gemini发布后,谷歌DeepMind的首席执行官Hassabis同样表示,团队正在研究如何将Gemini与机器人技术相结合,与世界进行物理互动。

    LMM还可以通过医学影像分析帮助医生诊断疾病,并帮助医生解读医学图像和报告以更快地进行诊断。

    前几天,世界卫生组织(WHO)还发布了全新指南,概述了多模态大模型在医疗卫生领域的五大应用场景:诊断和临床护理、患者自主使用、文书和行政工作、医疗和护理教育、科学研究和药物研发。

    另外,在教育领域,LMM的应用也是比比皆是。

    比如GPT-4加持的可汗学院AI机器人Khanmio能够为学生提供个性化辅导,还有专注数学的WolframAlpha能够生成可视化的解题步骤。

    未来,多模态大模型通过结合文本、图像和音频,能够创造更加身临其境的学习体验。

    多模态大模型无缝集成了文本、图像、音频不同的模态,将会为医疗保健、教育、艺术和个性化推荐领域的变革性应用打开了大门。

    综上,我们可以得到这样一个结论——LMM是人工智能的未来,更是迈向人工通用智能的垫脚石。

    显然,阿里正在走一条非常正确的路。

    参考资料:

    https://mp.weixin.qq.com/s/bt-b-tFe-qmjTqHaWG5YbA

    https://mp.weixin.qq.com/s/ddmlrIKFdRRWj3QXa7B_ig


    返回网站首页

    本文评论
    b站有多少10万粉up_在B站,48天涨粉10万,如何达成?
      10万?100万?跻身百大UP主?哪个是你新一年在B站的发展目标?   2020年B站百大UP主名单已于日前公布,据卡思数据统计,除游戏、知识两大主流分区占比近1/3外,以美食、美妆...
    日期:07-10
    人工智能伦理委员会「LG与联合国教科文组织合作推动人工智能伦理」
    **划重点:**小鹏g3丐版1. 联通靓号拍卖员工离职后威胁公司暴露公司机密红米k40手机ot g在哪儿打开...
    日期:11-27
    携程集团CEO孙洁:海外市场的提前复苏给了我们信心_携程二季度净营收87亿元,继续市场下沉与国际化战略
      讯 12月2日下午消息,携程集团CEO孙洁在“2022全球合作伙伴峰会”上从多重维度阐述了对未来的洞察,并与行业伙伴形成关于新一轮旅游业复兴的共识。风投公司亏损2021极米投...
    日期:12-12
    起售价下探至20万以内」- 「领克08上市,对标豪华品牌_领克08什么时候上市
    【】前有油车狼,后有电车虎。这似乎是领克08的上市口号,一款崭新的电动SUV,旨在挑战豪华品牌的传统油车,而其起售价一度因为9000元的限时优惠下探至20万以内。这波操作直接让用...
    日期:09-10
    元气森林营销中心原负责人叶礼诚被刑事拘留 涉嫌重大贪腐「元气森林市场部负责人」
    雷递网 乐天 1月20日在腾讯、美团之后,元气森林也加入到反腐行列。元气森林日前宣布,原营销中心负责人、元气销售体系负责人叶礼诚因涉嫌贪腐被撤职,已被警方依法刑事拘留。礼...
    日期:01-20
    iQOO 11S开箱上手:亚运会官方“运动器材” 依旧很iQOO「iqoo奥运会活动」
      S代表Super,iQOO给这款产品增加了200W超快闪充,144Hz E6屏屏幕,还有超分超帧并发技术,让它成为杭州亚运会电竞赛事官方用机。打游戏手感很不错,设计嘛,依旧很iQOO~日本有卖小米...
    日期:07-04
    中国商家涌入泰国“扫货”珠宝 有钱都难买到_泰国商品店
    近期,中国许多珠宝品类出现价格上涨的现象。随着出入境交流的恢复,此前无法出国、出境采购珠宝的中国商家现在纷纷前往泰国等地“扫货”彩宝等珠宝。彩宝是包括红宝石、蓝宝石...
    日期:04-18
    专访点点网CEO许朝军:做到行业第一才能吃肉
    点点网创始人兼CEO许朝军(微博)(腾讯科技摄)腾讯科技讯(雷建平)5月21日消息,轻博客网站点点网创始人兼CEO许朝军近日就酷6裁员风波、点点融资用途、未来公司策略等话题接受腾...
    日期:07-28
    淘宝搜索栏小范围灰度测试“淘宝热趋”功能
    11月28日 消息:据天下网商报道,淘宝搜索栏目前正在小范围灰测“淘宝热趋”排名功能。获得内测资格的用户打开淘宝搜索,会发现搜索框下会出现一个“淘宝热趋”排名。360安全路...
    日期:11-30
    东方红甄选一年持有混合基金「东方甄选2024财年中期业绩:总营收同比增长34%达28亿,净利润5亿」
    1月24日,东方甄选(1797.HK) 公布2024财年中期业绩。2023年6月1日至11月30日,东方甄选总营收28亿元,同比增长34.4%,调整后净利润达5.09亿元。截至2023年11月30日,东方甄选拥有货币...
    日期:01-26
    Mate50时隔两年归来,华为的竞争对手已不是苹果?_华为不会再有mate50了么
    Tech星球(微信ID:tech618)文|杨晓鹤封面来源|图虫创意9月6日,时隔两年归来,华为再次发布了Mate系列手机。小鹏p7自动驾驶安全吗虽然发布会依旧有“吊打苹果”传统,不过“余大嘴”...
    日期:09-16
    单晶硅太阳电池制绒辅助品「能像纸一样弯曲!我国成功研制出高柔韧性单晶硅太阳电池」
    快科技5月25日消息,柔性太阳电池在可穿戴电子、移动通讯、车载移动能源、光伏建筑一体化、航空航天等领域具有广泛应用空间。日前,中科院上海微系统所宣布,研究团队成功研制出...
    日期:05-25
    华为Mate怎么样录屏「华为mate怎么样」
    华为Mate系列手机一直以来都备受消费者的关注和青睐,因为它们一直都是为高端市场而设计的。关于华为Mate系列的最新一代华为Mate 40系列手机,具体怎么样呢?下面我们来进行搜集...
    日期:05-29
    鲍尔默对微软的贡献_传微软鲍尔默拟增加技术背景高管 扩大管理层
      两名消息人士透露,微软CEO史蒂夫·鲍尔默(Steve Ballmer)计划扩大管理层重组范围,增加具有技术背景的高级产品高管。   其中一名消息人士称,微软可能将于本月公布管理层...
    日期:07-26
    外媒:欧盟推动大型科技公司资助5G部署计划或推迟至2025年
    10月11日消息,知情人士于当地时间周二表示,欧洲电信运营商推动大型科技公司帮助支付部署5G网络建设费用的计划,可能不得不等到下一届欧盟委员会做出决定。电信公司表示,Alphabet...
    日期:10-11
    海上集装箱运输「海上“带货王”!全球最大集装箱船在江苏出坞:可堆22层楼高」
    10月29日,2艘24346TEU超大型集装箱船在泰兴扬子鑫福船厂先后顺利出坞。这是迄今为止全球建造的最大装箱量集装箱船,堪称海上带货王”。苹果耳机airpodspro和powerbeats对比网...
    日期:10-31
    谷歌取消进入办公区必须接种新冠疫苗要求 称"世界已经不同"
    4月12日消息,美国当地时间周二,谷歌向该公司全体员工发电子邮件,宣布在全球办公区取消进入办公楼需要接种新冠肺炎疫苗的要求,并称“世界已经变得不同”。在这封电子邮件中,谷歌...
    日期:04-12
    在西湖捞手机:日入一万_西湖可以捞鱼玩儿吗
    今年40岁的黄易勇,3月转行做潜水打捞,他的工作就是在西湖边打捞游客掉落的物品。手机这样的一般一单1500-2000元不等,平常一天可以接2-3单。五一期间高峰每天可以接到5-6单,据说...
    日期:05-04
    TikTok CEO谈推特裁员:已为避免大规模裁员进行了积极准备「推特与TikTok就潜在合并进行谈判」
    11月17日消息,当地时间周三在新加坡参加彭博新经济论坛时,TikTok首席执行官周受资被问及如何看待埃隆·马斯克(Elon Musk)决定裁汰半数推特员工以削减成本、提高效率的问题。华...
    日期:11-18
    诺基亚8600刷机「诺基亚5800xm刷机」
    诺基亚5800xm是一款非常经典的智能手机,经过一段时间的使用后,可能会出现某些问题,例如运行速度变慢,界面卡顿等,这时候刷机就成为了解决问题的方法之一。本文将为大家介绍的相关...
    日期:05-29