您的位置:首页 > 互联网

新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了_99b模型

发布时间:2024-09-19 15:42:29  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:茕茕,授权转载发布。

阿里开源,又拿第一了。

这次是在多模态领域:

就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合评测基准OpenCompass上,Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,在300亿以下参数开源模型中位居第一。

在数学推理和视觉理解等多项任务中,得分甚至超过了闭源的GPT-4o-mini。

具体来说,Ovis1.6能胜任视觉感知推理、数学和科学、生活场景等多种多模态任务。

拿大家伙儿都很关注的数理能力举个例子,Ovis1.6的表现是酱婶的:

妈妈再也不用担心我学不明白大学数学。

用来辅助读读论文:

分析财报,效果也相当不错。

还能当场看图教你做一道经典的炸鱼薯条(手动狗头)。

值得一提的是,阿里国际的Ovis系列多模态大模型,遵循的是Apache2.0开源协议。也就是说,协议很宽松,商用很友好。

从结构上对齐视觉和文本嵌入

话不多说,我们照例来拆解一下Ovis这个新科第一背后的技术细节。

根据OpenCompass评测基准,Ovis1.6-Gemma2-9B超过了Qwen2-VL-7B、MiniCPM-V-2.6等一众相同参数量级的知名多模态模型。

在数学等推理任务中,甚至有媲美70B参数模型的表现。

Ovis1.6的幻觉现象和错误率也低于同级别模型,展现了更高的文本质量和准确率。

如何做到?阿里国际AI团队的核心思路是:从结构上对齐视觉和文本嵌入。

当前,多数开源多模态大语言模型(MLLM)并非从头训练整个模型,而是通过像多层感知机(MLP)这样的连接器,将预训练的大语言模型(LLM)和视觉Transformer集成起来,给LLM装上“眼睛”。

这样一来,就导致了一个问题:MLLM的文本和视觉模块采用不同的嵌入策略,使得视觉和文本信息没办法无缝融合,限制了模型性能的进一步提升。

针对这个问题,Ovis采用了视觉tokenizer+视觉嵌入表+大语言模型的架构。

Ovis借鉴了大语言模型中的文本嵌入策略,引入了可学习的视觉嵌入表,将连续的视觉特征先转换为概率化的视觉token,再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。

文本方面,Ovis沿用当前大语言模型的处理方式,文本tokenizer将输入文本转化为one-hot token,并根据文本嵌入表查找到每个文本token对应的嵌入向量。

最后,Ovis将所有视觉嵌入向量与文本嵌入向量拼接起来,经由Transformer处理,完成多模态任务。

此次开源的Ovis1.6,相较于前代Ovis1.5,还在架构、数据、训练策略等方面做出了进一步优化。

架构方面,采用动态子图方案,能灵活应对不同分辨率图像特征,提升了模型处理复杂视觉任务的能力。

数据方面,Ovis1.6在训练中涵盖了多种类型的数据集,包括Caption、OCR、Table、Chart、Math等,确保模型在广泛的应用场景中都有出色表现。

训练策略方面,采用DPO等方案持续优化模型性能,增强了模型在生成文本和理解复杂指令方面的能力,使得模型在复杂任务上的表现进一步提升。

消融实验的结果还显示,在训练数据、模型参数、LLM和视觉底座都保持相同的情况下,与基于MLP连接器的多模态大模型架构相比,Ovis性能整体提升了8.8%。

量子位还了解到,作为一项基础研究,Ovis目前已经被广泛应用到了阿里国际的实际业务中。

AI能力变革出海电商

正如大家所知,阿里国际是一家AI驱动的、拥有多个全球知名电商的公司。

而事实上,出海电商这个场景,早已第一批被AIGC“渗透”。

99b模型

原因很直接:做出海生意,往往面临海外市场复杂、成本和竞争压力大、跨境人才短缺等等共性问题,而多模态大模型这样的AIGC技术,恰恰能在这些问题上,提供适配的降本增效方案。

举个例子,在跨境电商领域,退货退款一直是影响用户体验的重要因素。

传统方案是人工进行退款退货的审核和判责。这不仅需要大量审核人力和较久的审核时间,还会因为人工主观的评判标准不一,导致判罚的不稳定性较高。多数平台为了保证用户体验,倾向于给消费者更多的倾斜,但这也伤害了部分商家和平台的权益。

现在,基于Ovis,阿里国际融合过去积累的大量电商知识,上线了智能退款系统。

相比于人工,Ovis针对用户提供的退货退款图文和视频详情,可以提供秒级的审核服务,且具有高度稳定的一致性。这就在保证消费者和商家公平权益的同时,实现了快速低成本的退货退款方案。

另外,在商品属性提取、生成卖点等场景中,Ovis也已落地应用。

阿里国际AI团队,正是在如此预判下成立试跑的。而就在成立这一年多时间里,阿里国际已经实现AI能力在跨境电商领域的规模化应用:

AI发布商品达到百万规模,并且通过AI优化,这些产品在海外的搜索量提升了37%。

AI能力覆盖营销、客户服务、商品发布、设计、合规等40+应用场景,服务全球50万商家。

华为戴口罩面部识别

阿里国际AI能力日均超5千万次调用,规模每两月翻番。

……

Ovis之外,阿里国际还构建了多语言增强大模型Marco,电商版多模态大模型MarcoVL,提供的MaaS服务包括:

  • 多语言文本生成技术:为商品详情描述适配当地语言,让AI为商品介绍改写优化多语言标题,突破语言和文化壁垒。

  • AI图片处理,比如一键生成多张虚拟试衣效果。

以及智能消除、智能抠图等图像设计类能力。

可以说,从创立店铺到市场营销,再到售前售后,在出海电商的各个环节,阿里国际都已提供相应的AI技术予以辅助——

潜移默化中,AI已经完全改变商家的工作方式和生产效率。

△店铺设计来自AI

大模型之所以能在各行各业掀起惊涛骇浪,核心原因就是对生产力的解放和降本增效。

在这一波变革之中,对于阿里国际这样的平台而言,AI技术能力再次成为最受关注的核心竞争力。

而借助平台之力,出海电商商家已经开始第一批享受拥抱AI的红利。

对于广大开发者而言,来自于实干家们的开源贡献,亦是福音。

Ovis1.6开源地址和Demo:

arXiv:https://arxiv.org/abs/2405.20797

Github:https://github.com/AIDC-AI/Ovis

Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

苹果app store俄罗斯

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B


返回网站首页

本文评论
阿维塔 07 新车下线,9 月 26 日正式上市_阿维塔售价
IT之家 9 月 9 日消息,今天傍晚,阿维塔科技总裁陈卓发文宣布,阿维塔 07 已在位于重庆的数智工厂下线,将于 9 月 26 日正式上市。新车此前已于 8 月 30 日开启预售,但未公布售价信...
日期:09-12
就离谱,多国苹果App Store全面涨价
中关村在线消息:近期苹果公司宣布,10月5日起,苹果应用商店(App Store)在智利、埃及、日本、马来西亚、巴基斯坦、波兰、韩国、瑞典、越南以及所有使用欧元的地区将会提高应用程序...
日期:10-16
第一波元宇宙公司赚大钱了:收入5-6亿,VC排队砸钱_元宇宙公司如何盈利
声明:本文来自于微信公众号 铅笔道(ID:pencilnews),作者:xxxxx铅笔道编辑部,授权转载发布。从增长数据看,VR/AR营销赛道处于急剧增长阶段,新玩家还有机会。完全没想到,元宇宙火热这...
日期:10-01
小游戏升级未成年人保护能力_微信小游戏未成年保护系统怎么解除
  2019年1月,小游戏正式升级未成年人保护能力,与腾讯成长守护平台共建“成长守护”体系,帮助开发者更好地承担社会责任,守护未成年人健康成长。   小游戏全面接入“成长守...
日期:11-10
零跑汽车与佛吉亚达成战略合作 强化乘坐舒适体验
10月8日 消息:据零跑汽车官方消息,9月30日,零跑汽车与佛吉亚签署战略合作协议。双方将共同致力于布局可持续、高质量的汽车座椅供应链。2022年苹果秋季发布会有macbook pro吗...
日期:10-09
优派15寸显示器「优派推出业内可折叠135英寸一体化LED显示解决方案套件」
全球领先的视觉解决方案提供商优派(ViewSonic),刚刚推出了业内首创的 135 英寸一体直视 LED 显示解决方案套件。得益于可折叠的屏幕设计,其能够将封装尺寸缩小近半,为运输提供了...
日期:10-04
华为nova 20 Pro曝光:搭载低频版骁龙8+「nova8和荣耀20pro参数」
荣耀80 Pro之前首发了高通骁龙8+低频版本,该芯片的超大核主频是3.0GHz,标准版的超大核主频是3.2GHz。iphone12 pro 充电漏电据数码博主旺仔百事通”透露,华为新机nova 20 Pro采...
日期:11-29
杰和RTU远程终端控制系统方案_rtu远程测控终端
  在工业、农业以及交通等外界或特殊环境的现场,设备的运行需要实时监测环境数据,以确保设备正常工作和稳定运行。传统的设备管控和环境数据的采集以人工为主,但在不同的行...
日期:12-08
Moonshot AI官网体验入口 AI聊天软件app免费下载地址_moon官方平台
《Moonshot AI》是一款人工智能聊天助手应用,具有强大的自然语言处理能力,支持智能语音交互、情感交流、知识问答、任务规划等功能。它适用于生活指导、聊天陪伴、朋友交流等...
日期:12-12
副总裁发起全网挑战!使用人脸照片成功解锁极氪X奖10万:博主实测
快科技10月9日消息,极氪X加装8000元的智享交互科技套装后就能通过位于B柱的摄像头进行人脸识别解锁,不过有网友对它的安全性产生了质疑,有人担心车辆会被不法分子拿着自己的照...
日期:10-10
中国工程院院士张平:全面扩展通信系统理论极限_张平 中国工程院院士
北京邮电大学教授、中国工程院院士张平日前在参加中国通信学会主办的“信息论:经典与现代”学术研讨会上表示,经典信息论指导下的通信技术已经逐步逼近理论极限,如何突破经典理...
日期:08-26
央视再聚焦网游业 完美世界文化输出引关注
  日前,第九届中国国际网络文化博览会在北京举行,火爆的网游产业引发全行业关注。10月31日,央视《第一时间》栏目对此进行了专题报道。在节目中,央视不仅对整个行业快速的发...
日期:07-24
四只奶狗宠我「四只小奶狗集体出动有多可爱:萌翻众多网友」
一段家庭监控视频捕捉到了四只小奶狗集体出动的可爱瞬间,迅速在社交媒体上走红,萌翻了众多网友。视频中,这些小狗活泼可爱的模样不仅俘获了主人的心,也在网上引起了广泛的关注和...
日期:08-14
Facebook公司的招聘案例_Facebook母公司用算法"随机"解雇60名劳务派遣人员
8月20日消息,Facebook母公司Meta最近使用算法“随机”解雇了60名来自埃森哲的劳务派遣人员。此前Meta与埃森哲签订了近5亿美元的合同,由隶属于后者的劳务派遣人员到Meta位于奥...
日期:08-23
首发自研影像系统XMAGE 华为Mate50 Pro影像分全球
中关村在线消息:今日全球知名影像评测机构DXO公布了华为影像旗舰手机Mate50 Pro的影像得分,这台华为旗舰手机获得了149分的好成绩,位列全球第一名。当贝x3激光投影仪最新测评ai...
日期:11-07
华为手表watchmagic「独立智能机芯!华为Watch GT Cyber今天发:可换主题手表」
11月2日晚,华为将举行Pocket S及全场景新品发布会,除手机外,发布会还将推出华为Watch GT Cyber智能手表、全新MateStation X一体机等诸多新品。据经销商看山的叔叔”消息,华为Wa...
日期:11-09
业内老大顺网科技抢下全国八成网吧系统(顺网科技网吧)
  昨日,首家成功在创业板上市的网吧软件服务商顺网科技发布重大资产购买预案,拟通过定向增发加现金收购方式,购买7名法人及4名自然人所持的包括新浩艺软件在内的5家公司100%...
日期:07-26
619元!Redmi 12C清仓大促_红米12十512内存手机多少钱
Redmi 红米 12C 4G智能手机 4GB 64GB当前活动价低至619元。Redmi 12C是一款定位于千元机的手机,提供暗影黑、深海蓝、薄荷绿和薰衣紫四种配色选择。它有三个版本可选:4GB 64GB...
日期:06-25
华为高管李「供需跃升!华为李鹏:拥抱5G-A,迈向体验经营新时代」
通信世界网消息(CWW)6月27日,华为高级副总裁、ICT销售与服务总裁李鹏,在2024MWC上海期间,发表了《拥抱5G-A,迈向体验经营新时代》的主题演讲。他认为,在全球领先运营商与合作伙伴的...
日期:06-28
中国管制石墨出口,哪些国家急了?_中国石墨资源
最近,商务部、海关总署联合发布公告,对石墨相关制品实施出口管制,未经许可,不得出口。中国为什么要对石墨进行出口管制?管制后,能卡西方国家的脖子吗?又有哪些国家要着急了?大家对石...
日期:10-24