您的位置:首页 > 互联网

豆包包本包「豆包说要普惠,于是大模型处理图片按厘计价了」

发布时间:2024-12-23 15:30:17  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:蛋酱,授权转载发布。

这段时间,OpenAI 宣告连续12轮轰炸,让2024年底的大模型领域热闹起来了。

但坚持每个凌晨看直播的话会发现,越到后面的发布越平淡,内心的波动也越少了。

今年的大模型就卷到这里了吗?并没有,国产大模型又卷起来了,还给 OpenAI 来了一记重拳。

就在前几天,2024冬季火山引擎 FORCE 原动力大会上,字节跳动的豆包大模型家族,来了一场爆发式上新。

最受关注的是豆包大模型家族的新成员 ——豆包・视觉理解模型。顾名思义,它让豆包有了看懂世界的能力。更重要的是,这款新模型一千个 token 的输入价格仅3厘钱,也就是说花一块钱就能处理284张720P 的图片,比行业价格便宜了85%。

价格官宣的那一刻,或许众多企业用户在心里默念了一句:太好了,是豆包,我们有救了。

至于这款模型的理解能力有多强,请看 VCR:

火山引擎,赞4054

豆包包法教程视频

与此同时,三位成员豆包通用模型 Pro、豆包・音乐生成模型、豆包・文生图模型宣布升级,一起发布的还有豆包・3D 模型。

豆包包本包长什么样

回想年中的时候,豆包还是国产大模型中的新秀。短短半年多,竟然已经红透了半边天,成为了众多用户首选的生产力工具。

七个月的时间,能发生什么?对于 OpenAI 来说,可能只是一项新功能从期货到全量上线的准备时长。

但对于豆包大模型,这段时间已经足以拿下日均 tokens 使用量超4万亿的优秀成绩,比最初发布的那天增长了33倍。

经过此次升级后,豆包大模型家族的实力又壮大了一波。

据智源研究院12月19日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果,大语言模型评测能力榜单中,豆包通用模型 pro 在重点考察中文能力的主观评测中排名第一,多模态模型评测榜单中,豆包·视觉理解模型在视觉语言模型中排名第二,仅次于 GPT-4o,是得分最高的国产大模型。FlagEval 大模型角斗场榜单中,豆包通用模型 pro 在大语言模型榜单中位居第一梯队,评分排名第二,仅次于 OpenAI 的 o1-mini,是得分最高的国产大模型。

不得不说,国产 AI 进化的速度是真的惊人。

会读论文、看梗图

豆包的秒懂能力强得可怕

回望2024年的大模型技术发展,除了文本能力的继续提升外,从单模态过渡到多模态也是基础模型的演进趋势之一。

一个关键方向是,增加对视觉模态输入的支持。这就像是给 LLM 装上了眼睛和大脑,使其能够理解图像并进行相应的自然语言生成。

在不断进化的豆包大模型中,我们也看到了惊人的秒懂能力。

具体来说,豆包・视觉理解模型具备精准的指令理解能力,能够精准提取图像文本信息,因此可应用于更复杂、更广泛的视觉问答任务,比如描述图片中的内容以及对图片中包含的内容进行提问。另一方面,该模型可完成深度的图片理解与推理,在表格图像、数学问题、代码图像等复杂推理场景下都能发挥所长。

豆包・视觉理解模型接入豆包 App 和 PC 端产品已经有段时间了,机器之心也测试了一番,实际体验很不错。

在此之前,人们公认体验比较好的是 GPT-4o 模型,但这次测试下来,豆包・视觉理解模型毫不逊色。

首先能感受到,豆包的内容识别能力很强,比如对于视觉内容中的知识、文化背景、状态、数量、文字等信息都识别得很准确,特别是能理解中国传统文化知识。

比如问一个生活化的问题。站在超市货架前,每个人都有过难以抉择的时刻。但显然,大模型比我们更懂传统食物:

当然,它不只是擅长识别现实中的物品,即使图片只有光影、轮廓、位置这些特征,也能一眼辨别:

其次,豆包对于视觉内容信息的推理能力也很强,包括数学、逻辑、代码等。

就拿难懂的论文架构图来说吧,在没有给出任何论文背景信息的前提下,豆包不仅能看懂、讲透,特别是针对整体流程的解读,将阶段1和阶段2的因果逻辑表达得非常清楚,还能如数列出背景知识:

假如同事交接给你一些代码,别焦虑,叫上豆包一起看能效率加倍:

再说到视觉描述能力,它也非常擅长看图说话,完全可以用来编写社交媒体文案,或者任何你需要启发灵感的创作任务:

豆包知道骗局

还有一个很巧妙的用途 —— 帮助2G 冲浪的老年人看懂新梗:

多模态能力的突破,让今年的大模型应用给用户带来了诸多惊喜。此次视觉理解能力的增强,也将是豆包大模型打开更多落地场景的关键一步。当模型能够将图像和文字信息相结合,我们就能够获得更自然、直观的交互体验。例如,在产品推荐、教育辅助或虚拟助手场景中,用户可以通过图片与模型互动,获得更丰富的反馈。此外,结合视觉和文本信息,模型对输入的洞察水准也会更上一层楼。例如,在新闻分析或知识图谱构建中,模型能够关联文字和图片,提供更完整的背景和见解。

加上以厘为单位的定价,这些应用场景的解锁速度会比想象中更快。秉承让每家企业都用得起好模型的原则,豆包一发力,实实在在是把视觉理解模型的应用成本打下来了,将以更低成本推动 AI 技术普惠和应用发展。

三大主力模型升级

视频模型下月上线

在新成员诞生的同时,豆包大模型家族的三位重要成员也迎来了本年度的最后一次重大升级。

首先是大语言模型 ——豆包通用模型 Pro。对比今年5月最初公开发布的版本,这款模型在综合能力上已经提升了32%,与 GPT-4o 持平,但价格仅是其八分之一。

此外,豆包通用模型 Pro在指令遵循、代码、专业知识、数学层面全面对齐了 GPT-4o 水平。其中指令遵循能力提升9%,代码能力提升58%,GPQA 专业知识方面能力提升54%,数学能力提升43%,推理能力提升13%。

然后是语音,豆包・音乐模型的生成水平已经从高光片段跃升到完整乐章。

现在,用户只需要简单描述或上传一张图片,就能生成一首长达3分钟的包含旋律、歌词和演唱的高质量音乐作品,包括前奏、主歌、副歌、间奏、过渡段等复杂结构。并且,豆包・音乐模型提供了局部修改功能,在针对部分歌词修改后仍能在原有旋律的节奏框架内适配。

体验地址:https://www.haimian.com/create (APP 端:海绵音乐)

从原来的1分钟,升级为现在的3分钟,豆包・音乐模型克服了挑战,在较长的时间跨度内容保持了音乐元素的连贯性。

最后,在视觉层面,豆包・文生图模型本次也迎来了新一波升级,在通用性、可控性、高质量三方面取得了新突破。具体来说,豆包・文生图模型2.1新增了一键海报和一键 P 图能力,目前已接入即梦 AI 和豆包 App。

一键海报的关键点在于写字。在实际体验中,我们可以感受到,豆包・文生图模型对文字细节的指令遵循能力很强,特别是非常擅长写汉字:

Prompt:生成一张卡通土拨鼠的图片 衣服上的文字图案是 “机器之心”

macbookair2013升级固态

背后的技术源自豆包・文生图模型原生的文字渲染能力,豆包大模型团队通过打通 LLM 和 DiT 架构和构建高质量文字渲染数据,大幅提升了模型在文字生成方面的准确率,尤其是结构复杂、字符数量较多的汉字场景。

一键 P 图功能的实现,则基于豆包大模型团队近期在图像编辑技术上取得的重大突破:SeedEdit。

近年来,基于扩散模型的图像生成技术进展飞速,然而,图像编辑技术还难以满足人们对于生成内容可控性的需求,关键挑战在于实现维持原始图像和生成新图像之间的最优平衡。

SeedEdit 框架在不引入新参数的前提下,将图像生成扩散模型转为图像编辑模型,也是国内首个产品化的通用图像编辑模型。无需描边涂抹,用户只需要给出简单的自然语言指示,就能换背景、转风格,或者在指定区域进行元素的增删和替换。

Prompt:驴打滚变成拿破仑

相比于传统涂抹选中的方法,这种编辑方式更加精准,不会误伤无关区域。还有一点好处是,这种编辑技术能够一次性完成多项编辑任务,效率大大提升。

关于最近非常火热的3D 赛道,豆包家族也添加了一位新成员:豆包・3D 生成模型。将这款模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

如视频所示,通过叠加一句一句的文字 Prompt,就能搭建起一个工厂车间场景:

后来居上,一飞冲天

豆包凭借的是什么?

自2024年5月发布至今,只用了七个月,豆包大模型就成为了国产大模型中当之无愧的顶流。

后来者如何居上?在豆包家族做大做强的道路上,为其提供底层支撑的火山引擎云服务平台的价值不可忽视。

一直以来,字节跳动的豆包大模型都通过火山引擎对外提供服务,更强模型、更低价格、更易落地,这三个关键词成为了其别于众多大模型服务平台的特质。

除了不断升级的模型能力之外,火山引擎还解决了成本太高和落地太难两项大模型应用挑战。目前,这个平台提供从云计算、技术引擎、智能应用到行业解决方案的全栈服务。

模型层面,豆包大模型家族已经有十几位成员,覆盖了常见应用场景。

特别地,火山引擎为大模型落地提供了一系列覆盖全流程的工具,包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属 AI 应用创新平台 HiAgent。这些工具,在本次大会上也都同步升级。

火山引擎这次一口气推出了Prompt 优解、大模型记忆应用等产品,持续保障企业级 AI 应用的落地。Prompt 优解是全新一代提示词工具,通过自动 + 互动的方式,解决了人工编写 Prompt 难度高、耗时写、重新适配的问题。大模型记忆应用基于知识库 RAG 技术和上下文缓存技术,能够帮助企业用户打造灵活的大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。

扣子也在这次大会上升级到了1.5版本,还公布了开发者生态方面的亮眼成绩:目前平台已有超过100万的活跃开发者,共发布过200万个智能体。包括最新发布的豆包多模态模型们,用户们都能第一时间在扣子平台通过插件的方式体验。

在最新发布的HiAgent1.5版本中,火山引擎提供了100多个行业应用模板,提供给企业用户一键复制,实现低代码构建智能体。同步发布的 GraphRAG 则通过连接知识图谱为大模型提供知识及关系信息,以此增强回答质量、支持多跳问题回答。再通过 Reranker,进一步提升回答的准确性和完整性。如此一来,企业就能构建专家级别的 AI 应用。

在云服务层面,基于当前企业使用大模型推理对计算效率的新要求,火山引擎已经完成了从 Cloud Native 到 AI Cloud Native 的转型,打造以 AI 负载为中心的基础架构新范式。

GPU 在并行处理能力和高吞吐量方面更适合大规模推理使用,然而,传统 GPU 加 CPU 的异构计算中,GPU 从存储加载数据进行处理都必须由 CPU 控制。近年来的一个趋势是计算从 CPU 转移到 GPU,GPU 计算在整个系统的比例越来越大,因此过去的 I/O 流程成为巨大的效率瓶颈,某种程度上造成了 GPU 资源的浪费。

基于 AI 云原生的理念,火山引擎这次推出了新一代计算、网络、存储和和安全产品。在计算层面,新一代的火山引擎 GPU 实例,通过 vRDMA 网络,支持大规模并行计算和 P/D 分离推理架构,显著提升训练和推理效率,降低成本。存储上,新推出的 EIC 弹性极速缓存,能够实现 GPU 直连,使大模型推理时延降低至1/50;成本降低20%。安全层面,火山将推出 PCC 私密云服务,构建大模型的可信应用体系。基于 PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的差异在5% 以内。

今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。火山引擎总裁谭待表示。

面向2025,我们期待什么?

这一年,从技术研发的角度,豆包大模型团队在研究者和从业者圈子中影响力的增长是有目共睹的。2024年,团队发布了一系列出圈成果,包括近期的图像编辑模型 SeedEdit、代码评估数据集 FullStack Bench、新型神经网络架构 FAN 等。在突破前沿命题之外,这些成果也对豆包大模型产品层面的进化起到了关键的推动作用。

正是基于技术驱动下的产品迅速迭代,让豆包坐稳了国产大模型顶流的宝座。大模型技术爆发两年后,不管是个人用户还是企业用户都能感知到,豆包大模型在应用层的优势已经非常明显。

根据大会 One More Thing 环节的透露,本文开头 VCR 中所展示的端到端实时语音功能,以及具备更长视频生成能力的豆包・视频生成模型1.5也会在不久后上线。

站在2024年的末尾,无论是相关从业者还是大众都会好奇:2025年的大模型会变成什么样?

我们看到、听到了很多关于大模型前进方向的预判,比如 Scaling Law 即将撞墙,预训练已经走到尽头等等。

但这些并不意味着大模型的能力已经到达天花板,推理 Scaling Law 来了,AI 的智能水平可能会在短时间内跃升到一个新的高度。同时在图像生成、视频生成等多模态任务上,大模型仍有相当充足的发展空间。在未来的12个月,大模型进化的曲线可能会非常陡峭。

新的一年,豆包大模型还有哪些惊喜?值得每一个人期待。


返回网站首页

本文评论
摩尔线程显卡支持DX11游戏!国产第一家「魔尔线程」
快科技5月31日消息,摩尔线程今天带来了MTT S70,这是其继MTT S80之后的第二款游戏显卡,配备3584个MUSA核心、7GB GDDR6显存。同时,摩尔线程发布了全新221.13版驱动程序,除了增加支...
日期:06-01
中式推拿的按摩功效「打工人午休,流行去新中式推拿店“回血”」
声明:本文来自于微信公众号 定焦One(dingjiaoone),作者:王璐,授权转载发布。“最低成本的健康漂亮一定是养生。”自从这一观念深入年轻人骨髓,现在大家三句话离不开养生,而近两年国...
日期:11-06
美国就业市场分化:科技行业谨慎观望,金融行业等待“飓风”,其他行业用工荒
美国网络零售( )年开始大规模发展酒店无人智能售货机小猪共享民宿摩托罗拉手机发布会百度糯米券怎么购买荣耀搭载天玑1200处理器的手机电视盒子和电视机顶盒的区别旧的苹果...
日期:08-05
2021年最值得入手的投影仪是哪款?这10款随便选不会错(2021投影仪哪个品牌好,哪款适合家用)
  作为新型家用观影设备,投影仪凭借独特的观影效果和使用体验,揽下一众追随者。但是在选购上,想必很多朋友仍然是一头雾水,究竟怎样的投影仪的性价比最高?有哪些值得推荐...
日期:07-16
荣耀magic系统可以升级为鸿蒙系统吗「荣耀MagicOS 9.0开启内测招募:Magic6/V3系列等5款机型可升级」
快科技10月21日消息,荣耀官方预告,MagicOS 9.0发布会及开发者大会将于10月23日-10月24日在北京举行,这是行业首个搭载跨应用开放生态智能体的全场景AI操作系统。宠物殡葬利润现...
日期:10-21
破局之年,控客获恒大高科技集团战略投资_恒大高科技集团总裁
  近日,恒大高科技集团正式宣布战略投资控客,正式成为控客战略投资方,将整合控客在智能家居领域优势及恒大产业链优势,共同发力深度布局万亿蓝海。   作为世界五百强、中...
日期:07-10
吃个瓜而已,AI居然写了份研究报告??
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。救命,本来只是想随手吃个瓜,没想到AI较真起来,写了份完整研究报告。一口气查几百篇资料,从中精选出42篇参考...
日期:07-03
4699元起!荣耀MagicBook X16/X14 Plus轻薄本发布:标配锐龙7 8845HS_荣耀magicbook x14参数
快科技3月18日消息,除了主打的MagicBook Pro 16,荣耀今天还发布了两款轻薄笔记本,MagicBook X14 Plus、MagicBook X16 Plus,采用了AMD的新一代移动平台,同样主打AI。MagicBook X1...
日期:03-18
奈飞(NFLX.US)将在芬兰设立其第一家内部游戏工作室「奈飞有权力的游戏吗」
  智通财经APP获悉,奈飞在当地时间周一表示,将在芬兰设立一家内部游戏工作室。这是自该流媒体巨头于2021年11月进入移动端游戏领域以来,该公司首次进行此类内部开发。在此之...
日期:09-27
一加会发布骁龙7+的手机搭载骁龙7 Gen3 主攻2000元以下市场 一加中端新机曝光
来源:中关村在线华为鲲鹏生态创新中心iphone怎样重启手机据博主透露,一加即将推出一款全新的中端手机型号。这款新机型的定位可能会更低,进军2000元以下市场。新机型将提供直屏...
日期:12-22
供应链与直播的“低价”探戈
10个月前,梅姐(化名)开启了人生中第一次直播带货,10年的工作经验在镜头前完全“失灵”,个位数观看量更让她一度怀疑人生。而今年4月,梅姐面朝西沙群岛的湛蓝海域,对着400万人侃侃而...
日期:06-16
信通院发布《车载激光雷达技术与应用研究报告》:产业高速发展、体系亟待完善
通信世界网消息(CWW)近日,中国信通院发布了《车载激光雷达技术与应用研究报告(2023年)》。智能(网联)汽车是全球汽车产业发展的战略方向,是我国实现汽车产业转型升级的战略举措,是实...
日期:09-22
更高效!统信UOS V20桌面专业版(1060)解锁极致生产力
更好用更高效更安全统信UOS V20 桌面专业版(1060)近期已正式面向全球发布20 年操作系统研发历程我们始终坚持“从场景中来,到体验中去”好的产品,本身就是生产力1060 版本这一次...
日期:07-27
amd财报2021q2「AMD公布2023年第三季度财报」
加利福尼亚州圣克拉拉市— 2023 年 10 月 31 日—AMD(NASDAQ: AMD)今日公布 2023 年第三季度营业额达 58 亿美元,毛利率47%,经营收入2. 24 亿美元,净收入2. 99 亿美元,摊薄后每...
日期:11-01
马斯克被推特用户票选出局为何仍有支持者?原因:投资收益高达五倍
凤凰网科技讯 北京时间12月21日消息,据了解Aliya Capital Partners LLC是埃隆马斯克以440 亿美元收购推特的最大投资者之一。周二表示,尽管推特在问题,但它预计将获得高达其五...
日期:12-21
苹果中国用户数据都保存在哪里「库克称中国苹果用户数据是安全的 加密技术相同」
12月5日 消息:苹果公司CEO蒂姆·库克在多次公开场合强调,苹果在中国的数据安全性与在美国、英国、阿联酋等国家使用的加密技术是一致的。他指出,苹果的iMessage信息等服务均采...
日期:12-05
中汽研:与华为签署战略合作协议_中汽研简介
快科技12月12日消息,中国汽研官方发布称,12月8日,中国汽车工程研究院股份有限公司(以下简称中国汽研”)和华为技术有限公司(以下简称华为”)在深圳市华为总部签署战略合作协议。中...
日期:12-12
老匡:每天6000万收入的“短剧生意”,普通人能不能搞?怎么搞?
声明:本文来自于微信公众号 匡方(ID:kuangfang2012),作者:匡方,授权转载发布。一、先给大家反馈3个短剧行业近期行情:1、11月14日,快手、抖音、微信相继发布《微短剧治理公告》,短...
日期:11-28
芜湖完成5G-A低空专网覆盖研究,赋能低空经济翼展长空_芜湖5g基站覆盖范围
通信世界网消息(CWW)近日,中国电信研究院、安徽电信、芜湖电信携手中兴通讯在安徽芜湖采用3.5G双载波地空同频组网方案,率先完成5G-A低空专网覆盖研究,进一步拓展5G-A网络低空立...
日期:08-22
拥有农田面积超纽约市,告诉美国人不要吃肉,比尔·盖茨遭议员质疑!
编辑/黄胜;;   据澎湃新闻,今年以来,美国前首富比尔·盖茨已成为美国最大的农田私人所有者,但其大举购买农田的动机最近却遭遇质疑。   近日,美国南达科他州国会议员达斯迪...
日期:07-31