您的位置:首页 > 互联网

“1024 直接对标 ChatGPT!”科大讯飞星火大模型立 Flag、一手实测来了

发布时间:2023-05-08 10:04:04  来源:互联网     背景:

声明:本文来自于微信公众号CSDN(ID:CSDNnews)),作者:屠敏,授权转载发布。

短短半年之内,在大模型赛道上,国内外 AI 头部玩家陆续带着自己的 AIGC 产品迅速就位并“开跑”。现如今,谁能打造出中国版 ChatGPT,已经不再是一个问题。但是,谁能做出更好的中国版 ChatGPT,成为业界关注的重点。

北京时间5月6日下午2:00,作为人工智能“国家队”的科大讯飞,如约揭晓了其认知大模型——讯飞星火的真实面纱, 并带来了丰富的应用成果,为中国生成式 AI 市场再添一位猛将。

目前,讯飞星火认知大模型已经开启内测(https://xinghuo.xfyun.cn)。CSDN 在早前已经获得了内测,下文中,我们也将与大家一起探测「讯飞星火认知大模型」的真实情况,以及它的与众不同之处。

带着7大类481个细分的任务类型,讯飞星火认知大模型来了!

在发布会现场,科大讯飞董事长刘庆峰表示,认知大模型的技术阶跃和快速进化,让人工智能在全球掀起全新热潮。当前,认知大模型成为通用人工智能的“曙光”。与此同时,认知大模型的“智能涌现”将带来解决人类刚需的全新机遇。

具体来看,智能涌现的通用人工智能系统具有七大能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。基于此,人类只要做画龙点睛的加工,就能得到“懂你所言,答你所问,创你所需,解你所难,学你所教”的所有内容。

图片

讯飞星火认知大模型是基于科大讯飞12年的技术积累,打造而成,实现了通用人工智能系统七大能力中的481个细分任务。其还在2022年12月15日,正式启动“1+N”认知大模型专项攻关,其中“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。

图片

对于先行者,刘庆峰表示,「向 OpenAI 致敬和学习,快速追赶并努力超越」。

图片

与此同时,其更是在现场目标明确,立下2023年内讯飞星火认知大模型的升级 Flag:

  • 6月9日,讯飞星火认知大模型将突破开放式问答、升级多轮对话能力、数学能力。

  • 8月15日,突破代码能力、继续升级多模态交互能力。

  • 10月24日,讯飞星火认知大模型将在通用大模型领域直接对标 ChatGPT,并在中文维度实现超越。

图片

话不多说,我们也将从七大能力直接开启测试模式。

代码能力:多功能、多语言

对于程序员而言,关注的重点当然是大模型能给我们解决多少代码、编程问题。

在此,我们便先测试一下。

譬如,捉 Bug。

图片

写代码:“围绕“给定一个1-100的整数数组,请找到其中缺少的数字”写一段实现代码”。

图片

再来一个递归函数:

图片

挑战难一点的:「怎么用 C++ 编写一个复数计算器?包括加减乘除、幂次方、取模、辐角、共轭。实部和虚部都是实数范围。」

vivo x fold折叠屏手机怎么样

图片

图片

图片

对此,我们咨询了 CSDN-AI 团队研发总监对这段代码进行了点评,其表示:讯飞星火认知大模型生成的代码,复数类的代码基本实现是对的,但是测试用例没有一次性生成完整。和GPT 生成的测试用例相比,这段代码比较简洁完整。

其实在代码能力上,刘庆峰坦言,讯飞星火大模型的这一功能和 ChatGPT 相比,还有很大差距,下一步升级的重点功能也是这一块。

就连大模型自身也说道:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。

图片

简单的代码问题,对于讯飞星火认知大模型来说,不成问题。不过在涉及到一些复杂的工业互联网、架构时,其生成的内容只能供参考。作为开发者,更要自行检查代码正确性、可靠性和保密性等等。

图片

文本生成能力:多风格、多任务、长文本

首先,先给我们介绍一下自己:旨在“星星之火,可以燎原”。

图片

再来科普一下认知大模型:

图片

再让讯飞星火认知大模型来讲个英文的故事:

图片

直接翻译成中文试试:

图片

几次实测下来,讯飞星火认知大模型在不同语言的涌现能力表现都不错:

图片

继续续写一个故事:如果奥特曼出现在《西游记》故事中,会发生什么?

结果显示,它对中国文化理解力也不错:

图片

在这一功能上,刘庆峰表示,讯飞星火大模型在国内明显领先,并且在中文方面超过了 ChatGPT,并且在持续进步中。

语言理解:多层次、跨语种

中华文化博大精深,这是否会难倒讯飞星火认知大模型?

用现场的测试案例,先来一波直击灵魂的提问:「俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的」

图片

追问:「如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸」。

图片

语境理解:「女朋友生气时,说随便,男朋友应该怎么做?」

图片

再来一个:「烈日之下,我哭了。烈日之下,我看到我的爸爸在干活,我哭了。分别表达了什么心情」

图片

不得不说,拥有讯飞星火大模型的情商和理解力,绝对能分分钟拯救“每步都踩在女朋友的雷点上”的他。

再来试试英文:「这句话有问题吗:Each of the boys have a pen.」

结果显示,此大模型不仅能识别出错误,也能直接给出正确的语句答案。

图片

知识问答:泛领域、开放式

先问一下关于医学问题:

图片

提问:刺绣里面的"水路”、“落绷"是什么?

图片

再问:「"蚂蚁上树”这道菜怎么做?」

这一次,我们终于没有看到真实的蚂蚁被做成菜的“指南”了:

图片

不妨再来一场辩论试试:「以"AI创作的绘画是/不是艺术"为主题,进行辩论,正方:是艺术,反方:不是艺术,最终得出结论」

图片

刘庆峰表示,讯飞的大模型也正在逐步学习专业的科学文献,未来回答也会更加专业。

逻辑推理

来一道经典的“过河”推理问题:

一个人带着一匹狼、一只羊和一捆卷心菜来到了河边。他需要过河,但是河边只有一条船,而且他只能带一样东西上船。他不能把狼和羊一起留在河边,也不能让羊和卷心菜一起留在河边,因为在这两种情况下,前者都会吃掉后者。那么,如何用最少的渡河次数把所有东西都带到河对岸呢?解释得详细一些

根据我们的需求以及提问,讯飞星火认知大模型能够尽可能提供详尽的解答:

图片

继续提问:

图片

数学能力

在数学能力上,先来一个简单的“鸡兔同笼”试试水。我们发现,相比其他大模型,讯飞星火似乎更善用方程来解决问题:

图片

接下来,我们又用了此前在其他三四款大模型上提过的问题来进行了测试,但是彼时只有 ChatGPT 回答出来了。

提问:某厂一车间有64人,二车间有56人,现因工作需要,要求第一车间人数是第二车间人数的一半,问需从第一车间调多少人到第二车间?(列方程解答)

讯飞星火认知大模型并没有让我们失望,成功做出了解答:

图片

再来测试一下不动脑筋就会想错的问题:「公司的股票昨天涨了10%,今天又跌了10%,请问是涨了还是跌了」。

汽车行业降价

图片

多模态能力

截至目前,虽然星火认知大模型不是国内第一个发布的,但在多模态能力上,功能还是颇为全面的,具有语音、图文理解、虚拟人合成、多模态交互等多种能力。

不过,有些遗憾的是,这些功能目前处于科大讯飞内部测试阶段,尚未公开。根据其官方计划,公测用户应该能在8月份用上。

当前,倒是可以通过现场演示一饱眼福。如上传一张英文菜单图片,直接翻译为中文:

图片

图片

也可以畅想一下,对于英文不好的技术人而言,是不是可以通过大模型,无障碍阅读很多英文文献、论文了。

下面进一步交互,表现力也不错:

图片

也能直接语音输出:

图片

还能直接生成虚拟人。这个虚拟人能够结合文字叙述的背景,配上相应的背景图、手势、语气,实现寓意贯穿。

图片

畅想一下未来

综合以上,讯飞星火认知大模型在情商、智商、逆商不错的表现能力,有目共睹。不过,这也引发了不少从业者的焦虑,现在不妨也让它来与我们一起畅想一下未来。

当问及和人类的智慧相比,谁更胜一筹时,星火认知大模型给出了中肯的回答:在某些情况下,还需要人类的判断和智慧。

图片

面对现在很多程序员都要问上一句的“取代潮”,它表示自己不太可能完全取代程序员的工作。

图片

畅想未来,它也能很现实地告知,理想中的 AGI 离我们还有很远,甚至可以说是遥不可及。

图片

这对于很多新闻播报的自媒体工作者而言,无疑是福音来了。

与此同时,当问及未来开源 AI 大模型的发展趋势时,其中立地回答道:各有优劣,未来的发展趋势将取决于具体的应用场景和技术需求。

图片

图片

最后

整体测试下来,讯飞星火认知大模型给我们带来的惊喜远远大于预期,这也是讯飞大模型在今天发布之后频频获得好评的原因。不过,刘庆峰也表示,目前纯大模型技术在新知识获取、事实类问答、史实与传统典籍理解等方面还有一定的缺陷。

图片

不过正如文章伊始所述,这些难题攻克都已经提上日程。

如今,讯飞星火认知大模型技术也已经从单一的大模型本身,成功扩展到教育、办公、汽车、数字员工等 N 个方向,在不断迭代中,我们也期待星火认知大模型更加亮眼的表现。


返回网站首页

本文评论
Windows 11任务栏的上下文菜单喜迎任务管理器的回归_windows操作系统的任务栏
最近的Windows 11预览版对那些希望以更容易的方式访问任务管理器的用户来说是个好消息。近两年前推出的第一版Windows 11将任务管理器的上下文菜单快捷方式从任务栏移至开始...
日期:10-04
猿辅导发布 STEAM 科学教育产品“南瓜科学”:深度应用 AI 智能语音_南瓜科学steam课怎么样
  7 月 28 日消息 今天下午,猿辅导宣布推出场景化 STEAM 科学教育产品“南瓜科学”。据猿辅导介绍,这是首个包含深度应用 AI 智能语音功能的 STEAM 科学教育产品。   随...
日期:10-07
马斯克为终止收购推特再添新理由,前推特高管投诉成为关键「马克斯退出推特」
图片来源:Pexels  记者 |彭新魅族16th plus是旗舰机吗  8月30日消息,特斯拉CEO埃隆・马斯克的顾问向推特再次发送了终止收购函,通知收购协议终止。  此前马斯克已经于7月...
日期:09-07
扎克伯格投资元宇宙_扎克伯格「自拍」被群嘲 这就是烧掉百亿美元的元宇宙?
  来源:爱范儿  荒凉的蓝天绿地里,伫立着简陋的巴黎埃菲尔铁塔和西班牙圣家堂,扎克伯格的虚拟化身(avatar)肢体僵硬,面露若有似无的微笑。  这张拍摄于 VR 社交平台 Horizon...
日期:08-24
USB PD 快充手机出现井喷,PD充电器或成刚需(pd快充给普通手机充电)
  2015年,苹果发布了第一台搭载USB-C接口并支持USB PD快充的笔记本电脑New MacBook,预示着USB PD快充产业的到来;2017年9月,苹果发布的iPhone X、iPhone 8/8 Plus三款手...
日期:03-08
微软首席经济学家警告:人工智能一旦落入坏人之手 将造成真正的破坏
快科技5月4日消息,周三在日内瓦举行的世界经济论坛小组会议上,微软公司首席经济学家迈克尔施瓦茨(Michael Schwarz)表示,人工智能一旦落入坏人之手会非常危险,或将造成真正的破坏...
日期:05-04
#闪光的2020#活动结束,乐划锁屏X即录进一步丰富OPPO内容生态的产品和服务
  近日,由乐划锁屏和即录联合打造的#闪光的2020#年终活动圆满结束。在本次活动中,乐划锁屏与即录把多变的玩法和情感诉求再次有机结合,鼓励用户在微光过往中记录美好瞬间,将2...
日期:09-19
常霸小红书护肤互动榜,全年销售额3000w左右,雾屿森林是如何做的?
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:Sally楠,授权转载发布。美国对芯片制造商的限制对华为造成重大打击最近在刷小红书护肤爆文内容时,经常会刷到雾屿森林这个品...
日期:09-29
国务院办公厅关于同意建立数字经济发展部际联席会议制度的函
来源:国务院办公厅   国务院办公厅关于同意建立数字经济发展部际联席会议制度的函国办函〔2022〕63号   国家发展改革委:   你委关于建立数字经济发展部际联席会议制度...
日期:07-31
青莲网络重要事记回顾|砥砺前行 未来可期
  后疫情时代,国家加快5G网络、数据中心等新型基础设施建设进度,数字化的进程被按下“快进键”,掌握技术的企业率先跨入数字化转型的快车道。青莲网络从企业级云产品体系销...
日期:07-17
国家卫建委提倡:尽量移动支付取代现金 微信亲属卡为老人提供便利
  2月7日,在商务部、国家卫生健康委联合印发《零售、餐饮企业在新型冠状病毒流行期间经营服务防控指南》中,特别提到了建议用刷卡支付和各种移动支付方式取代现金支付。  ...
日期:10-09
阅文现实题材征文大赛获奖作家赴延安采风,网络文学主流化进程提速
  5月25日至27日,在中国作家协会网络文学中心的指导下,阅文集团组织部分网络文学作家前往延安进行红色采风,并在宝塔区建立首个网络文学作家党建基地,以延安精神滋养创作初心...
日期:01-26
10月主机大战落下帷幕:索尼折戟掉至第二 任天堂重回第一宝座
  近日,NPD Group公开了2021年10月的主机市场销量报告,根据这份销量报告,任天堂在上个月成功击败索尼,重新回到了全球主机销量第一的宝座。   在9月份,索尼成功在销量上击...
日期:07-09
小桔能源总经理解晶晶谈虚拟电厂:融合了充电网络、光伏发电等能力
凤凰网科技讯 4月2日,中国电动汽车百人会论坛在北京钓鱼台国宾馆举办,工业和信息化部原部长李毅中、财政部原部长楼继伟、中国科学院院士欧阳明高等嘉宾,参与了本次会议。小桔...
日期:04-02
千呼万唤始出来! WPS计算机二级通关课3月1日上线_计算机二级WPS备考
  2021年3月(第60次)全国计算机等级考试将于3月27日至29日举行。值得注意的是,国产办公软件WPS Office此次将作为全国计算机等级考试(NCRE)的二级考试软件之一。   WPS...
日期:07-16
苹果公司福利政策「苹果加大力度削减成本:推迟发放奖金 限制招聘」
凤凰网科技讯 北京时间3月15日消息,知情人士称,苹果公司推迟了一些企业部门的奖金发放,并加大了成本削减力度,像其他硅谷同行一样试图在不确定时期精简运营。特斯拉fsd是标配吗...
日期:03-15
平价好用的护肤品知乎_知乎《成分实验室》上线 主打夏日美妆护肤新姿势
8月19日,知乎美妆护肤科普节目《成分实验室》上线。据悉,《成分实验室》是一档知乎自制体验类成分研究栏目,由知乎的优秀内容创作者作为节目嘉宾,针对知乎的美妆护肤高关注话题...
日期:08-21
94.4%屏占比带来极致屏幕体验 1899元起荣耀X20首销引发抢购潮(荣耀x10手机屏占比)
  8月12日晚,荣耀X20正式发布,搭载120Hz超窄边全视屏,屏占比高达94.4%,将同档位手机屏占比推向新高。此外,荣耀X20还配置了66W超级快充、莱茵硬件级护眼、原彩显示和DCI-P3等...
日期:07-17
手机 App 和网站验证信息能否更方便视力障碍群体操作?工信部回应
  8 月 24 日消息 据工信微报,来自河北省邯郸市的刘先生提问称,工信部能否推动企业推出更多适应盲人群体的验证方式,同时推动购物类 App 加强与读屏软件的合作?   我是一...
日期:07-17
鱼塘软件|电商“劫”,其实真的可以有最优解!
  现如今,电商已经是国民经济的重要组成部分,成为人们生活中不可或缺的一部分。   头部电商“猫狗拼”(ps.是指天猫、京东、拼多多),可谓是风光无限,可对于广大中小电商商...
日期:07-15