您的位置:首页 > 互联网

腾讯大模型的绝活,居然是发布会上没吹的写代码?_腾讯模仿的产品有哪些

发布时间:2023-09-09 14:17:43  来源:互联网     背景:

就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。

为什么要说终于?

在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。

其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。

方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。

后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。

所以这也让差评君对混元的期待值,越来越高。

毕竟上一个用 “hun yuan ” 名号的,可是打了一整套闪电五连鞭。

话不多说,下面就开始新一轮大模型测试。

本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT。

整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。

这次我们一反常态,把长文总结能力的测评放在了第一位。

因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。

至于能不能当成省流版,往下看你就懂了。

混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。

但当我让他展开讲讲的时候其实还行,但可惜无中生有了 “ 长文总结 ” 这个模块。

而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。

在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。

向上滑动

看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。

首先我们做的测试是常规的语义理解问题。

问题是理解 “ 原来谁都看不上,现在谁都看不上 ” 。

这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个 “ 看不上 ” 都解释上了。

但 ChatGPT 说的依旧很 ChatGPT ,说最多的话,犯最蠢的错。

他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级。

但它完全没品出这前后两个 “ 看不上 ” 里,带有反转的幽默感,遗憾。

向上滑动

接下来我们看混元的复杂问题理解能力。

问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。

既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。

要给大家稍微讲下这题为啥是复杂提问。

因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。

因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。

最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。

而进一步设想里的统一全国,更是曹操本人都没能实现。

所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。

AI 浪潮下的网文作者现状

经过测试,两个大模型的回答都很一般。

从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。

混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。

至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。

相对而言,个人感觉ChatGPT 的稍胜一筹。

毕竟 混元 可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。

向上滑动 ▼

第一辆特斯拉续航

既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。

结果立马就能发现混元和 ChatGPT,就像理科生和文科生的区别。

混元的回答简单不啰嗦,但有的时候过于生硬。

你说有错吧,谈不上,你要说给高分肯定不可能。

而 ChatGPT 就是不管对不对,先把字写满再说。

看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。

所以两者都不完美,都有待改进。

向上滑动 ▼

然后我们还重点考验了下大模型的文字学习能力。

搬出了当年的火星文,给两个考生上上强度。

先是丢了一篇火星文版的朱自清《 背影 》名场面给大模型学习。

然后让他们分别用这种风格写一篇养金毛心得。

结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地 QQ 空间就是有优势,火星文的熟练度相当不错。

第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。

而 ChatGPT 虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了。

向上滑动 ▼

接下来就到了代码能力的考核。

这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。

说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待。

但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。

甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。

对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。

混元页面效果

ChatGPT页面效果

除了代码问题,数学就是另一个大模型的老大难了。

这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。

最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。

而 ChatGPT 明显还有余力。

5年级测试题 向上滑动

6年级测试题 向上滑动

初一测试题 向上滑动

当然,最后也少不了网友们喜闻乐见的 “ 弱智吧 ” 精选套餐。

这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。

因为在大部分测试里,混元和 GPT 基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!

向上滑动

除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势。

腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉( 胡言乱语 )等通病上,有了针对性的改善。

所以我们在实际测试时,也专门留心感受了这两块内容。

不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。

但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。

而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。

比如“ 重新生成 ” 答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。

而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改。

还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。

再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?

这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。

不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。

总的来说,混元和 ChatGPT 在中文环境下的 PK 中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平。

只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。

而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。

而这种感觉也更贴合腾讯对混元大模型 “ 实用级 ” 的定义。

毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。

腾讯模仿的产品有哪些

那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合。

现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。

腾讯模仿失败的有哪些软件

虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。

但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。

在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。

更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。

此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15% 的 GMV 提升。

所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。

好饭不怕晚嘛。

撰文:八戒 编辑:江江 & 面线 封面:萱萱

图片、资料来源:

腾讯混元大模型


返回网站首页

本文评论
斑马惠购官网_斑马惠购:您家门口的批发站,打造中国式的ALDI
  德国有一家神奇的杂货铺, 它是德国一家以经营食品为主的连锁超市,在德国品牌价值却仅次于西门子和奔驰。   它在全球20个国家经营着超过10000家商店,销售额超过4800...
日期:12-25
毛利率21.8%超特斯拉 理想公布第二季度财报:日均进账1个亿「特斯拉2020利润表」
快科技8月8日消息,理想汽车于今日下午公布了2023年第二季度财报,数据显示,其营收、交付量双双破纪录。理想称,基于中国家庭用户对于产品的积极反馈,公司营收和交付量创新高,由于需...
日期:08-08
谷歌:企业别升级Office 最好与Docs一起用(谷歌的office软件)
  据国外媒体报道,在微软向企业推出Office 2010软件的前夕,谷歌争辩称,企业还有更好的升级其办公套装软件的方法。企业不用向微软付费购买新版本的软件,最好是使用企业现有的...
日期:07-29
四川26岁女孩下网约车后失联 父亲称其身患抑郁症_22岁女孩网约车后失联
6月26日消息,日前一则寻人消息引发许多网友关注。寻人消息称:万文,青神人,于2023年6月24日乘坐滴滴在四川省眉山市青神县老大桥下车,随后失联,去向不明。失踪时,穿咖色衣服与浅蓝色...
日期:06-26
苹果高管参与 10 月 25 日直播 或将发布新的 Mac 和 iPad「苹果开发者大会新直播」
10月15日消息:苹果公司营销主管Greg Joswiak和软件工程主管Craig Federighi将参加《华尔街日报》科技直播现场活动,该活动将于10月25日星期二举行。会议主题尚未公布,但其将由...
日期:10-16
B站第三季度营收58亿元 净亏损同比收窄36%「b站第三季度营收58亿元 净亏损同比收窄36万」
11月29日消息,哔哩哔哩(以下简称“B站”)公布了截至2022年9月30日的第三季度未经审计的财务报告。财报显示,B站三季度营收达57.9亿元人民币,同比增长11%,毛利率环比提升3.2个百分...
日期:11-30
三款配色,焕新登场!iQOO 11S钱塘听潮新配色亮眼
今晚19:00,iQOO新品发布会如期而至,杭州亚运会电竞赛事官方用机iQOO 11S正式亮相,除了经典的传奇版、赛道版还带来了钱塘听潮新配色。知乎rtx3060ti游戏本推荐赛博朋克2077电子...
日期:07-05
DMK医生赋能会|聚焦医美联合应用,共探斯坦酶再生医学
5 月 15 日,DMK品牌医生赋能会——《酵醒·刷酶时代,素写·医美未来》在上海市成功举办。会议邀请到中外医学美容领域TOP级专家团,共同探讨斯坦酶再生医学在医美联合应用领域的...
日期:05-22
Twitter遭遇专利流氓:或被迫缴纳授权费
腾讯科技讯(万学)北京时间6月4日消息,据国外媒体报道,一家印度软件公司向美国微博网站Twitter发出了警告通知,称其可能侵犯了其正在美国申请并被美国专利及商标局(USPTO)受理的专...
日期:07-28
真我gt neo参数「真我GT Neo6曝光:骁龙8 Gen2直屏旗舰 无塑料支架」
快科技5月24日消息,博主数码闲聊站暗示,真我GT Neo6将会搭载高通骁龙8 Gen2移动平台,采用1.5K超窄边框直屏,没有塑料支架,支持144Hz高刷和2160Hz高频PWM调光。微软开发者从配置来...
日期:05-25
中国信通院副院长王志勤:在5G-A时代,核心网需要加速升级
通信世界网消息(CWW)日前,在第31届中国国际信息通信展“5G-A核心网产业论坛”上,中国信息通信研究院副院长王志勤表示,我国5G建设已经硕果累累,新应用与新需求对5G网络能力和网络...
日期:06-07
国家加快推进电子合同,上上签助企业HR管理提效
  电子印章、电子证照、电子合同正在加速普及,近期,国家相关部门先后发布支持政策,企业也积极转型电子化管理。据国内领先的电子合同平台上上签电子签约统计,该平台仅电子劳...
日期:11-04
Web3.0:一场“赛博资本主义”的谎言
  作者|郭海惟邮箱   给资产阶级的所有权下定义,不外是把资产阶级生产的全部社会关系描述一番——卡尔·马克思   2021年3月4日,一家注册账号为BurntFinance区块链团队...
日期:08-02
优惠289元!海南免税店版iPhone 14 Plus开卖「海南买苹果13免税可以优惠多少钱」
大家注意啦!现在海南免税店版iPhone 14 Plus开卖了,最多可便宜289元。根据海南免税店发布的消息,iPhone 14 Plus手机128GB、256GB和512GB三个版本的价格分别是6790元、7665元...
日期:10-13
趣头条号联合每日一淘发起“15天餐桌不重样计划”,聚焦小镇家庭营养餐桌
  随着国民生活质量的改善,人们对于饮食越来越注重,从以往只能“有啥吃啥”、“吃饱就行”,到现在“吃什么”和“怎么吃”已成为大家每天都会考虑的问题。   近日,趣头条号...
日期:03-22
美团无人配送机_美团推出多款机器人  无人机“3公里15分钟”送货到家  _网易科技
8月18日,美团在2022世界机器人大会上,展示多款在仓、在途、在楼机器人产品。本次大会吸引了130余家企业携500余件展品亮相,30余款全球首发新品将在博览会现场集中发布。资料图l...
日期:08-19
京东重磅人事变动:多位事业群总裁、副总裁换人「京东管理层人员」
11月24日消息:继刘强东公开信宣布自2023年1月1日,副总监级别以上高管降薪10-20%后,京东零售又迎来多起重磅人事变动。关注智能家居据《晚点 LatePost》报道,本周三刘强东开启了...
日期:11-26
别让「账号共享」黑灰产,毁了视频行业生态
声明:本文来自于微信公众号 壹娱观察(ID:yiyuguancha),作者:娱乐大家,授权转载发布。为了第一时间畅快追剧,购买流媒体平台的会员,已成为多数用户的一种习惯。但在庞大的娱乐内容...
日期:01-06
周杰伦入职中国移动工号0716 并计划举办元宇宙演唱会「周杰伦为中国移动写的歌」
周杰伦于 5 月 8 日现身厦门,与中国移动咪咕展开元宇宙领域的多项合作。在活动现场,周杰伦公布了中国移动联合好莱坞顶尖特效团队WETA为他打造的超逼真数智人“周同学”,并宣布...
日期:05-09
捡漏神器!12306候补平均兑现率达70%:多账户下单成功概率大「12306候补兑现成功率高吗」
4月16日消息,昨日五一”假期首日火车票正式开售,你抢到票没?如果还没买到票的旅客可以在12306进行候补购票。据央视网报道,铁路12306的候补功能被网友亲切地称为官方捡漏神器”,...
日期:04-16