您的位置:首页 > 互联网

世界顶尖多模态大模型开源!又是零一万物,又是李开复_多模态技术

发布时间:2024-01-23 12:08:38  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 栗子 ,授权转载发布。

领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!

距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。

多模态分析软件

模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。

同属Yi系列,同样具有两个版本:

Yi-VL-34B和Yi-VL-6B。

先来看两个例子,感受一波Yi-VL在图文对话等多元场景中的表现:

Yi-VL对整幅图做了详细分析,不仅说明了指示牌上的内容,甚至连“天花板”都有照顾到。

中文方面,Yi-VL也能清晰有条理地准确表达:

此外,官方也给出了测试结果。

Yi-VL-34B在英文数据集MMMU上准确率41.6%,仅次于准确率55.7%的GPT-4V,超越一系列多模态大模型。

而在中文数据集CMMMU上,Yi-VL-34B准确率36.5%,领先于当前最前沿的开源多模态模型。

Yi-VL长啥样?

Yi-VL基于Yi语言模型研发,可以看到基于Yi语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型——这也是Yi-VL模型的核心亮点之一。

在架构设计上,Yi-VL模型基于开源LLaVA架构,包含三个主要模块:

  • Vision Transformer(简称ViT)用于图像编码,使用开源的OpenClip ViT-H/14模型初始化可训练参数,通过学习从大规模”图像-文本”对中提取特征,使模型具备处理和理解图像的能力。

  • Projection模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化(layer normalizations)的多层感知机(Multilayer Perceptron,简称MLP)构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息,提高了多模态理解和生成的准确度。

  • Yi-34B-Chat和Yi-6B-Chat大语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术,能够帮助Yi-VL深入理解复杂的语言结构,并生成连贯、相关的文本输出。

△图说:Yi-VL模型架构设计和训练方法流程一览

在训练方法上,Yi-VL模型的训练过程分为三个阶段,旨在全面提升模型的视觉和语言处理能力。

第一阶段,使用1亿张的“图像-文本”配对数据集训练ViT和Projection模块。

在这一阶段,图像分辨率被设定为224x224,以增强ViT在特定架构中的知识获取能力,同时实现与大型语言模型的高效对齐。

第二阶段,将ViT的图像分辨率提升至448x448,让模型更加擅长识别复杂的视觉细节。此阶段使用了约2500万“图像-文本”对。

中兴手机blade

第三阶段,开放整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源,共约100万“图像-文本”对,确保了数据的广泛性和平衡性。

零一万物技术团队同时也验证了可以基于Yi语言模型强大的语言理解和生成能力,用其他多模态训练方法比如BLIP、Flamingo、EVA等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。

Yi系列模型可以作为多模态模型的基座语言模型,给开源社区提供一个新的选项。同时,零一万物多模态团队正在探索从头开始进行多模态预训练,更快接近、超过GPT-4V,达到世界第一梯队水平。

目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放,用户可亲身体验这款模型在图文对话等多元场景中的表现。

超越一系列多模态大模型

在全新多模态基准测试MMMU中,Yi-VL-34B、Yi-VL-6B两个版本均有不俗表现。

MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理)数据集包含了11500个来自六大核心学科(艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程)的问题,涉及高度异构图像类型和交织文本图像信息,对模型的高级知觉和推理能力提出了极高要求。

而Yi-VL-34B在该测试集上以41.6%的准确率,成功超越了一系列多模态大模型,仅次于GPT-4V(55.7%),展现出强大的跨学科知识理解和应用能力。

同样,在针对中文场景打造的CMMMU数据集上,Yi-VL模型展现了“更懂中国人”的独特优势。

做好家校沟通促进班级管理

CMMMU包含了约12000道源自大学考试、测验和教科书的中文多模态问题。

其中,GPT-4V在该测试集上的准确率为43.7%, Yi-VL-34B以36.5%的准确率紧随其后,领先于当前最前沿的开源多模态模型。

项目地址:

[1]https://huggingface.co/01-ai

[2]https://www.modelscope.cn/organization/01ai

—完—


返回网站首页

本文评论
“刷视频赚钱”套路为何屡打不绝_刷视频赚钱方法
;  李英锋三星新机上市老机多久降价  “边刷视频边赚钱”“轻松日赚百元”……近期,在部分短视频平台、社交媒体平台上经常能看见这样的广告语,推广一些号称可以通过刷视...
日期:10-01
区块链公司趣链科技成功上榜2022中国低碳科技创新企业Top30榜单
近日, 2022 创新者年会(WIM2022)正式启幕。在本次峰会上,亿欧评选颁发了“ 2022 中国低碳科技创新企业Top30 榜单”,区块链公司趣链科技位列其中。苹果发布会2022新品ipad何时...
日期:01-16
小米14多少钱「小米14首批购买者逐渐收货,真实用户评价出炉,差评很无奈」
无论商家们在宣传自家产品的时候说的有多么好,在购买之前一定要去了解一下真实用户评论,因为商家们的宣传为了自身利益,即使不好的地方都能说成是好的,只有真实掏钱购买的用户,对...
日期:11-04
网易AI算法、恰似chats手机端应用软件获批登记
8月21日 消息:天眼查App显示,8月15日,网易(杭州)网络有限公司“网易数帆人工智能算法软件”“恰似chats手机端应用软件”获得登记批准,版本号均为V1.0。psvr2头戴阿里巴巴副总裁...
日期:08-21
联发科将开发集成英伟达GPU芯粒的汽车SoC「联发科将开发集成英伟达GPU芯粒的汽车SoC」
联发科宣布与英伟达达成合作协议,为软件定义汽车提供完整的AI智能座舱解决方案。2020年618时三星s20多少钱在该方案中,联发科将开发汽车SoC,将英伟达GPU芯片集成入其中,并搭载英...
日期:09-26
担当社会责任 弘扬正能量 雷沃公益在行动(践行公益和社会责任的责任人)
  作为国内机械装备制造业的骨干企业,雷沃重工在稳健快速发展的同时,一直积极履行企业社会责任,弘扬公益正能量。2011年,雷沃重工正式发布雷沃公益品牌并启动了“雷沃公...
日期:09-12
27 亿参数,微软发布 Phi-2 模型:某些性能指标优于 Llama-2-7B_微软hpc
IT之家 11 月 17 日消息,微软 Ignite 2023 大会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型 Phi-2,共有 27 亿参数,相比较此前版本有明显提升。IT之家注:微软于今年 6...
日期:11-17
同比减少18.9%-五菱汽车,上半年总收入为50.89亿元「五菱销售收入」
【】8月24日消息,昨日晚间,五菱汽车公布中期业绩,上半年总收入为50.89亿元,同比减少18.9%;净利润1226万元,与去年同期净亏损1.39亿元相比扭亏为盈。五菱汽车指出,主要原因为商用整...
日期:09-16
小米选择印度电子制造商生产耳机「小米在印度线下市场取得开门红, 将加速线下扩张」
2023/5/31 17:46 小米选择印度电子制造商生产耳机  蒋均牧 C114讯 北京时间5月31日下午消息(蒋均牧)小米加入了越来越多试图将生产从中国迁往印度的供应商的行列。据报道...
日期:05-31
5g网络上海_上海无线城市着手四网融合 今年TD投资5.6亿
5月18日消息,上海通信发展2011年会今日在上海环球会议中心召开。上海移动副总工程师孙达在会议上透露,中国移动计划今年投资5.6亿,扩大TD网络的建设,实现网络覆盖上海70%的面积...
日期:07-28
贝索斯地球基金会「贝索斯:将把大部分钱捐给慈善机构」
凤凰网科技讯 11月14日晚间消息,据CNN报道,亚马逊创始人杰夫贝索斯称他将把大部分钱捐给慈善机构。魅族18和魅族18pro屏幕一样的吗...
日期:11-17
苹果公司将为iPhone推出新安全模式 以防止密码被盗_ios安全模式
【手机中国新闻】12月13日,手机中国了解到,苹果公司将为iPhone推出一种新的安全模式,可以在小偷或其他攻击者知道用户的私人密码时保护用户。如果手机位于通常与其所有者无关的...
日期:12-13
吃瓜经济学?直播电商的“底色”是娱乐大众_电商直播的经济学意义
声明:本文来自于微信公众号 壁虎看KOL(ID:bihukankol),作者:三玖是天,授权转载发布。舆论中心变大型带货场景最近,张兰在直播间的舆论纠纷中上链接,凭借一己之力与近期的世界杯热...
日期:12-01
macbook air 有15寸「苹果发布15英寸的MacBook Air 起售价1299美元」
财联社6月6日电,苹果发布15英寸的MacBook Air,为苹果公司历史上最大尺寸的MacBook Air,电量将提升达50%,搭载M2处理器,起售价1299美元。苹果下调2022年发布的13英寸MacBook 100...
日期:06-06
宝骏汽车坐垫「宝骏云朵白色沙发座椅耐不耐脏?官方倒可乐实测:一抹就净」
快科技8月5日消息,日前10万级纯电新宠宝骏云朵已经上市,它配备的云朵”大沙发座椅吸引了很多人的关注,其中还提供白 蓝的配色,很是清新,但也有人担心,浅色内饰虽然好看,怕是不耐脏,...
日期:08-15
iphone 13全球销量「iPhone 13成全球最畅销手机 小米两款上榜」
据Display Supply Chain Consultants(DSCC)最新发布的报告,预测了2022年全球最畅销的手机,其中前十名OLED机型中有7款是iPhone。在前十名中,iPhone 13以8%的单位份额排名第一。而...
日期:04-05
挟之以威「挟ChatGPT之威,微软要“二选一”」
“高开”的微软新必应,正在承受压力。一方面,谷歌没有留在原地被动挨打,聊天机器人Bard正在加速前进。当地时间3月31日,谷歌CEO桑德尔·皮查伊(Sundar Pichai)在采访中透露,Bard将...
日期:04-05
咪咕首次实现移动端 AVS3+HDR Vivid 国产化标准融合规模化商用
IT之家 9 月 25 日消息,杭州亚运会于北京时间 9 月 23 日正式开幕,中国移动咪咕公司宣布作为官方持权转播商,在本次亚运会的直播赛事服务中,在咪咕视频、咪咕视频爱看版打造 AVS...
日期:09-26
一克拉DR钻戒多少钱? 这4枚DR钻戒展现尊贵品位!_dr一克拉钻戒要多少钱
提到求婚钻戒,很多人都会想到‘一生仅能为一人定制’的DR钻戒。你知道DR钻戒多少钱吗?DR钻戒价格究竟有多贵?下面就介绍4款一克拉DR钻戒。一百分的钻戒,代表了一百分的坚定,是...
日期:01-06
信通院余晓晖:我国存储总量达到1080EB
通信世界网消息(CWW)中国信通院院长余晓晖对近日发布的《中国综合算力指数(2023年)》进行了解读。对付远光狗的利器余晓晖表示,新一轮科技革命和产业革命加速演进,算力为越来越多...
日期:08-22