您的位置:首页 > 互联网

国产模型人均第一太假?字节扣子模型广场竞技,全民投票!

发布时间:2024-06-13 18:38:50  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】每家国产大模型都说自己是第一,该信谁的?最近,字节推出了扣子模型广场,全体国产LLM开启大混战!你一票,我一票,谁是第一,大众说了算。投票连小朋友都能参与,模型生态从此彻底从黑盒到白盒。

只有打开黑盒,大模型应用生态才能从玄学变科学。

从厉害到能用,关键一步是确定性

在过去的半年里,笔者在北京拜访了一百多位人工智能应用开发者,其中最年长的是80多岁的张老。

张老是一位中美混血的华侨,在人工智能这个词诞生的第一届达特茅斯会议召开时,他已经成年,并且从事着与编码相关的工作,甚至还在卡片上打孔进行过编程,后来又在IBM从事研发工作。

可以说,张老一生都是人工智能的忠实拥趸。在这一轮大模型爆发的时候,他表现得非常激动,尽管已经退休很多年,但仍然充满热情地在扣子上开发Bot,之前不仅使用过GPTs,还对工作流了如指掌。

张老在谈论现在大模型的发展时,一方面给予了高度赞扬,另一方面也表达了担忧。

他告诉笔者:别看舆论上很热闹,似乎一下子出现了很多发明,但实际上真正能被使用的东西很少。他认为,真正的新发明必须能够提供新的服务,并举例将大模型与计算机的发展进行了类比。

在他年轻的时候,IBM和惠普等公司生产的产品只能说是接近计算机的计算器。而当时,一位名叫王安的华人制造出了现代意义上的第一台移动电脑Wang2200。

Wang2200不仅与IBM、惠普的机器一样支持Basic语言和磁芯存储(顺便说一句,磁芯存储也是王安发明的),而且在计算功能之外还能进行数据处理和文字处理,甚至还配备了CRT显示器,运行着他自己发明的文字处理系统WPS。

他本人也因此入选美国发明家名人堂,与特斯拉、爱迪生等人齐名。在这台移动电脑发布两年多后,微软和苹果才相继成立,并且深受其影响。

然而,Wang2200的发明虽然具有进步意义,但也存在严重的缺陷:

  • 其一,它的稳定性较差,由于设计过于超前,其性能甚至不如当时的计算器;

  • 其二,它是一个黑盒子,虽然机器本身很好,但与主流的IBM路线不兼容。

工程师们不愿意使用这种结果不确定的机器。因此,尽管IBM落后一年才推出5100,但却获得了市场的普遍认可,被认为是PC机的开端。

在张老看来,不稳定和黑盒子这两个问题,也是大模型生态发展面临的两大挑战。

笔者非常认同他的观点,并且在后来对应用创业者的拜访中,更加深刻地验证了这一点。

大模型生态的两大挑战

  • 首先,大模型生态的发展过于超前,一诞生就被说得无所不能,但产出结果的稳定性仍然存在问题。

包括OpenAI在内的各家模型都存在幻觉问题,许多微调垂类微调模型在实际应用中的表现甚至不如知识图谱。

这一点在各家SaaS厂商接入大模型时表现得尤为明显。有多少SaaS接入大模型后发现实际效果并不理想,下面的人面对不稳定的结果,根本不敢依赖它来产生结果。

网上常说的AI写简历、写日报、写周报,在现实中有几个人真的敢依靠AI来写呢?输入信息给AI的时间早就足够自己写完报告了。

  • 其次,黑盒子问题更加严重。

一位应用创业者曾经告诉笔者,如果他描述的问题在大模型中没有得到很好的解决,他的下意识动作就是把问题需求描述得更加详细。但事实上,他写的prompt(提示)越多,得到的结果只会越混乱。

在现实中,大多数对话式大模型产品都需要非常好的prompt工程能力才能使用,而且prompt过程本身就非常复杂。这与使用AI来降低成本、提高效率的初衷背道而驰。

一位在中关村从事AI资源管理系统的创业者对笔者说,他在调用大模型API时,最关心的就是能否给用户一个稳定的结果。他现在拓展新客户非常困难,只有一些小公司愿意免费尝试,因为大客户都很担心模型给出的数据不准确,在关键时刻还得重新编写。

另一位从事AI运营系统的创业者则更加苦恼,因为他提供给付费客户的小红书文案有时好有时坏,总是出现幻觉表述,他们的创业团队为了挽回客户,经常要手动帮客户改稿到半夜。

在B端市场,有趣并不重要,有用才是关键。如何提高输出质量的确定性,对于创业者和开发者来说具有极其重要的价值。

手搓Bot,扣子AI工作坊可能会让大家看到更多真实场景

大众市场不在乎你是否是人工智能,也不在乎你是否是高科技产品,他们只关心你能否解决他们的生活和工作问题。

因此,大模型生态要想被市场广泛接受,就必须做到两件事:一是极大地降低使用门槛,二是极大地提高确定性。

只有做到这两点,大模型生态才能真正融入大众的工作和生活。

在上述两件事中,第一件事,即降低使用门槛,目前各家大模型厂商都已经意识到了,并且主流的解决办法是采用Agent路线。

这里的Agent需要解释一下,目前百度的词条翻译是通用人工智能,这过于科幻,与当前的现状不符。

网上还有另一个被广泛使用的说法是智能体,这个说法虽然正确且理想,但笔者觉得不够形象,圈内人想吐槽它叫智障体,圈外读者甚至不知道它是什么意思。听说有Saas厂商将其翻译成AI员工,只能说他们想多了。

这里想说一个不太准确但肯定能让大家一眼就明白的词——人设。无论以后基础模型如何发展,Agent目前的状态就是这样。

举个例子,笔者曾经按照prompt教程,设计了一个哈佛大学教授的Agent来协助日常工作。然而,它除了能用哈佛精英的口吻与我说话之外,其他事情都做不好,文章等等也写得很糟糕。

这样说大家应该能理解人设和智能体的区别了吧。而且与上文一致,你写的prompt越详细,Agent就越模糊,输出的结果也就越混乱。

那么有没有解决办法呢?目前,在国内平台中,笔者只看到扣子注意到了第二件事——极大地提高确定性。

扣子智能体开发平台

扣子现在给自己的定位是新一代一站式AI Bot开发平台,由此可以看出他们对Bot的重视程度。

为了方便大家区分Agent和Bot,这里还是要做一下翻译,网络直翻是机器人。

这里可能还是不好理解,举一个实际运行的例子——根据抖音热点内容创作微信公众号文章。

如果我们给创作大师Agent写prompt,可能会这样写:你是一个热文创作大师。请根据今天的抖音热点内容XXX,写一篇微信公众号文章。

如果在扣子平台使用Bot来做这件事,我们输入的提示词可能是一样的,但它可以进行更复杂的任务执行,包括检索、提纲、修改、查询数据库、核定、提升文学性等预动作,然后再输出给你。而且,这些预设的工作流、技能、插件、数据库、长期记忆都是你可以设计的。

不出意外的话,后者输出的文字会比前者好很多。因为这个Bot是根据你的需求量身定制的,它可以存储你日常的数据库,你真的可以放心地让它帮你写日报、周报、简历,在写长文字时,甚至在细节上的它表现比你还好。

Bot和Agent有什么区别?

Bot和Agent并不是两种路线,一些预设简单的Bot甚至就是Agent的套壳,它们最大的区别在于确定性更强。

目前,扣子上最受好评的部分是工作流,其生态玩得非常溜,不久前甚至上线了工作流商店。在开发者中已经有了新的说法——当prompt越多Agent越模糊时,workflow(工作流)越细致Bot越精准好用。

为了方便普通读者理解,这里也要对Bot做一个不准确的解读——手搓小程序。因为用户写了Bot并不是用完就结束了,而是可以继续分发到微信、飞书、抖音等多个渠道给别人使用,真的和小程序差不多。

为什么说是手搓呢?因为扣子真的把小程序的编写门槛降低了太多,哪怕是完全不懂编程的小学生也能像玩拼图一样拼出来。

近期,扣子与Intel联合推出了主题为Bot征集活动的扣子AI工作坊(Coze AI Factory),涵盖了图文创作、实用工具、互动创意三大赛道。

苹果airpods pro是怎么实现无缝切换

在抖音快速发展的过程中,降低两个门槛起到了重要作用,一是降低创作门槛,二是降低分发门槛。

扣子的发展也是如此,现在他们把小程序的开发门槛降到如此之低,下一步就是大规模分发。

在大模型应用的发展过程中,扣子正在吸引越来越多的普通人进入创作领域,让开发者生态变成大众创新的生态。

最低门槛的比赛,最能认清生态的时候

在扣子AI工作坊活动开展的同时,扣子模型广场也正式推出。

什么是扣子模型广场?

从字面上看,这是一个拥有众多模型的地方。扣子虽然是字节跳动的平台,但并没有限制Bot只能使用豆包大模型,而是支持Bot接入国内众多主流大语言模型,如通义千问-Max、智谱GLM-4、MiniMax6.5s、Moonshot128k、Baichuan4等。

为什么要这样做呢?

现在看来,主要原因是扣子希望构建的Bot生态是一个场景丰富的超级生态,无论是医疗、金融、汽车、美容、交通等公共领域,还是围棋、电竞、情感、消费、营养等个人领域,所有赛道的人都能在上面开发出符合自己需求的Bot。目前国内模型的技术路线尚未统一,服务能力也各有优劣,扣子必须为开发者开发更好的Bot争取空间。

但在具体开发过程中,对于到底该选择哪家模型,开发者该如何进行比较和选择呢?

对此,扣子在模型广场提供了模型对战功能。所谓对战功能,就是指用户可以通过与两个隐藏了模型的Bot实时对话(注意,这里Bot相同,只是模型不同),然后根据模型的回答进行投票,投票结束后系统才会揭示具体的模型。

在具体操作过程中,用户的使用体验大致如下:

他可以看到一个界面弹出两个分页面,两个页面运行同一个Bot,只是其背后支持的大模型不同;

他在其中一个页面输入提示词,另一个页面也会跟着输入相同的提示词,两边的模型同时支持Bot运算并给出结果,两边的结果同时展示;

他可以根据两边结果的优劣进行投票,投票之后才能看到两边的大模型名称以及相关参数;

他可以多次进行对战,通过这种对战测试来决定自己的Bot以后使用哪个大模型。

模型对战

在扣子上,这个模型对战功能还提供了三种模式:

其一,是指定Bot对战。

用户可以指定一个Bot进行不同模型的对战,操作非常简单,这非常适合开发者测试自己的Bot,最大的好处是可以让开发者决定自己的Bot以后调用谁家的模型。

指定Bot对战

其二,是随机Bot对战。

过程与前面基本相同,唯一的区别是用户不需要指定模型,系统会随机分配模型供你对战使用。这对普通用户来说非常有价值,他不仅可以比较模型的能力,还可以感受扣子上许多有趣Bot的能力。

随机Bot对战

其三,是纯模型对战。

这个过程与前面仍然相同,只是用户不再测试Bot,而是测试评价模型本身。大模型技术仍在高速发展,技术路线也没有完全统一,好坏优劣一直难以评判,各家都在不断自称某项第一。

韩国韭菜 梭哈成瘾电影

纯模型对战

前文说大模型Agent输出结果是黑盒状态,其实各家大模型能力评测也是黑盒状态,开发者在选择时非常缺乏测评尺度。因此,Bot的效果好坏很大程度上受到开发者个人审美偏好的影响。

但是要想让大模型应用生态繁荣起来,这种黑盒必须变成直观可见的白盒。

对于开发者来说,扣子模型广场的对战功能无疑是最直观的比较工具,为他们节省了不少投入。

在此之前,开发者在选择模型时,肯定会进行比较和衡量,也少不了找群体做双盲测试,但这既浪费金钱和人力,又麻烦,最关键的是难以控制变量。

各家模型都在不断变化,每隔一段时间整个赛道都会发生变化,如果没有这样的工具,开发者将会在评测上浪费大量时间,而现在时间恰恰是最宝贵的。

对于大模型厂商来说,如此直接的对比,如此公开的投票,确实是一种巨大的鞭策。

在过去的一年里,许多大模型厂商都用尽各种话术来夸耀自己的XXX项第一,以及在哪些测试中获得了多高的评分。

但随着大量的模型们开始针对测试题库进行训练优化,这种评比早已不客观。不过,仍有不少模型沉浸在这种虚幻的排名中。

然而,只有通过实际对比,才能知道谁才是真正的强者。

乐橙实时视频

对于生态来说,扣子模型广场提供了一种最低门槛、最低成本的模型PK方式,即使是小朋友也能参与投票,这一下子将整个模型生态的判断标准拉到了与大众标准相同的水平。

当开发者们为选择大模型而茫然时,大众的选择、普通人的感受可以成为大模型优劣的最佳标尺。


返回网站首页

本文评论
马斯克提交密封答辩并反诉推特(马斯克声明)
讯 北京时间7月30日凌晨消息,一份法庭文件显示,埃隆·马斯克就440亿美元收购推特的诉讼提起了他的答辩和反诉。   虽然这份长达164页的文件尚未公开,但根据法院规则,修订后的...
日期:07-31
3年过去 骁龙888处理器的库存还没清完:三星被逼重发Galaxy S21 FE_三星s21骁龙888怎么样
快科技6月30日讯,据SamMobile报道,三星将在印度重新发布Galaxy S21 FE 5G手机,此次的变化是搭载骁龙888处理器。虽然国内目前在售的S21 FE只有骁龙888一个版本,可之前印度版则是...
日期:07-01
快手-W:授出6.79万份购股权「腾讯持有快手多少股份」
  快手-W9月27日公告,根据首次公开发售后购股权计划授出合共6.79万份可认购股份的购股权,惟须待承授人接纳方可作实。1080显卡上市新款微软surface pro 阿里巴巴双十一张勇...
日期:09-28
moto X40官宣:紧跟小米13 二代骁龙8仅2000多元
小米13系列官宣了,12月1日将首发骁龙8Gen2芯片,而马上moto方面也官宣了moto X40手机,该机将在12月初发布,最快在下周,新机将支持IP68防水级别。samsung galaxy s6 edge虽然支持IP...
日期:11-29
特斯拉市值破8千亿美元_特斯拉市值周四缩水170亿美元 再次跌破4000亿美元
9月18日消息,据国外媒体报道,1:5拆股之后波动较大的特斯拉股价,在周三周四连续下跌,仅周四市值就缩水170亿美元,再次跌破4000亿美元。周四美国股市收盘时,特斯拉报423.43美元,较前一...
日期:08-01
Outlook将很快支持对邮件作出表情反应而不发送回复「outlook发邮件未响应」
一段时间以来,人们如何通过电子邮件进行互动已经有点僵化,从如何发送电子邮件到撰写回复。虽然说清楚并确保将信息信息正确地转达给收件人是极其必要的,但在有些情况下,回应可能...
日期:10-18
华为u7510宣传片「华为u7510」
华为U7510是一款基本功能手机,于2009年发布。它的特点是简单易用、体积小巧、通话质量好、电池寿命长。对于那些只需要打电话和发送短信的用户来说,这是一个理想的选择。华为U...
日期:05-30
苹果12手机价格「苹果12手机价格256g」
苹果12手机是苹果公司最新推出的手机,一经面世就引起了众多消费者的关注和追捧。作为苹果公司自2007年推出首款iPhone以来不断升级换代的产品线中的一员,苹果12不仅外观时尚、...
日期:05-30
对标苹果M2!高通自研12核骁龙新U调好不发布:ARM WinPC体验翻身
抛弃Intel x86处理器后,苹果M1/M2靠一己之力,将ARM笔记本的出货占比从2%提升到12%。这样的成绩,早就撩拨着高通躁动不安的心。华为p系列升级鸿蒙系统据悉,高通正在秘密打造的ARM...
日期:02-13
全力护航 静待“花”开  看中国联通与体育竞技的“双向奔赴”_中国联通体育中心营业厅
“欲把西湖比西子,淡妆浓抹总相宜。”“雨过西湖烟水晴,湖光山色美无情。”“接天莲叶无穷碧,映日荷花别样红。”“重湖叠巘清嘉。有三秋桂子,十里荷花。”……浙江杭州是一座历...
日期:09-23
拼多多追上阿里?最焦虑的是京东_拼多多反超阿里
声明:本文来自于微信公众号定焦(dingjiaoone),作者 | 金玙璠,编辑 | 魏佳,授权转载发布。电商圈再次上演新王换旧王的大戏。5月22日,拼多多的市值再度超越阿里巴巴,成为美股市值最...
日期:05-27
“中兴通讯uSmartNet 5G ToB园区运营解决方案”上榜“2023自智网络十佳应用解决方案”
通信世界网消息(CWW)打造自智网络,迈向数智未来!当前,积极运用人工智能技术,加速推进通信网络数智化转型升级,构建自动化、智能化的网络运营能力,推动产业链各方从通信服务向信息服...
日期:08-31
vivo s18价格vivo S18系列价格公布 2099元起售_vivo手机s1v1831a价格
来源:中关村在线中关村在线消息:发布会最后,vivo S18系列售价正式公布,拥有80W远航闪充,4800mAh大电池,至高12+12G内存融合、512G超大存储,全新第二代4nm工艺天玑7200芯片的vivo S1...
日期:12-15
话机世界与中国联通战略合作拉开序幕_中国联通合作公司
  2010年12月18日,中国联合网络通信有限公司与话机世界数码连锁集团股份有限公司联合召开新闻发布会,正式宣布双方结成战略合作关系。   双方基于3G移动互联网时代的发展...
日期:07-25
分类分级是推动平台互联互通的关键一步_全面开展数据分类分级
作者:陈兵;;责编:任绍敏   分类分级规范体系与新《反垄断法》结合,能提升平台经济反垄断监管效能。   8月1日起,新《反垄断法》正式施行,其在总则部分增加第9条规定“经营者...
日期:08-20
ios13.3正式版_iOS 13.3.1测试版显示
  (原标题: 新iPhone中的U1芯片可关闭)   关闭网络,会影响超宽带芯片   新浪数码讯 1月19日上午消息,在近期推出的iOS 13.3.1系统的的第二个测试版中,苹果加入了一个开...
日期:08-20
增益BUFF加持,三星OLED电视打造沉浸式游戏体验_三星micro led电视
2023年,国内游戏市场回暖。全年游戏市场收入同比增长13.95%,首 次突破3000亿关口;用户规模提升到6.68亿人,也为历史新高点。在这些游戏玩家之中,不乏众多热爱主机游戏的用户,忠于...
日期:05-08
AutoGen官网体验入口 AI对话框架免费软件app下载_autogeneration
AutoGen是一个基于多代理对话框架的下一代大语言模型应用程序。它通过简化复杂的大语言模型(LLM)工作流的编排、自动化和优化,最大化了LLM模型的性能并克服了其弱点。AutoGen在...
日期:12-01
小米14发布会雷军说友商"},{"keyword":"雷军小米14系列将开始预热","info":{"wordid&qu
来源:中关村在线根据报道,小米14系列手机正在面临缺货问题。尽管小米之家门店店员表示已经进行了第三批补货,但不同颜色和存储规格的机型缺货情况各不相同。特别是16GB+512GB存...
日期:11-08
Store达成合作 Windows可直接运行移动应用 腾讯应用宝与Microsoft_windows store应用商店
【】5月28日消息,腾讯应用宝宣布与Microsoft Store达成合作,双方将共同合作实现腾讯应用宝移动内容在Microsoft Store专区上架。根据合作,未来Windows用户将能通过应用商店、开...
日期:05-29