您的位置:首页 > 互联网

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

发布时间:2024-04-26 17:16:57  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

讯飞的持续高投入,换来了大模型能力的迅速提升。

4月26日,科大讯飞发布讯飞星火大模型 V3.5的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。

效果到底如何?

今年人形机器人发展火热,我们将一份长达70多页的人形机器人报告,丢给了讯飞星火。只见星火很快上传解析了文件,我们先让星火总结这份报告的重点信息,星火条理清晰的给出了答案。

图片

然后又让它给出报告中特斯拉机器人的概括提炼,讯飞星火也结合报告中特斯拉机器人的信息从技术迭代、核心技术和部件、学习能力等进行了总结提炼。

小米13最新消息

图片

整体看下来,讯飞星火已经能作为一个知识助手,帮助我们在海量的信息中快速的获取知识,大幅提升我们获取信息的能力,并且效果也很不错。

值得关注的是,据七麦数据显示,讯飞星火 APP 在安卓端的下载量已经超过9600万次,在国内工具类通用大模型 APP 中排名第一。持续用技术进步解决真实刚需下,讯飞星火也在获得越来越多用户的认可。

为何要做长文本、长图文、长语音大模型?

日本UONI由利扫地机器人

知识高效获取一直都是职场、学生和科研人士的痛点问题。不同于行业单 “卷” 长文本,科大讯飞此次推出了首个长文本、长图文、长语音的大模型,背后是如何考虑的?

科大讯飞分析发现,在知识获取和学习的过程中,广大用户能拿到的资料往往不仅是现成的文本,还有随手可见的报刊书籍内容、各种研讨会的 PPT 内容,老师黑板上的板书、同学的笔记,以及各种会议录音、访谈,各种网上的发布会、培训教育视频等,能不能把这些文本、图片、语音等都上传到讯飞星火中,快速获取知识?

正是这一考虑,科大讯飞推出首个支持长文本、长图文、长语音的大模型,希望以此来解决用户真实场景中多元信息的获取需求,提供高效便捷的知识管理体验。

科大讯飞,赞24

场景问题之外,用户高效获取知识的痛点还有效率问题和专业度问题。

比如面对上百万甚至上千万文字,长文本大模型消耗的运算资源非常大,业界大模型往往处理一半或者更少就无法处理了,长文本功能的落地,需要解决高效处理。

为了解决这一问题,科大讯飞用业内领先的讯飞星火 V3.5提升对长文本的理解、学习、回答能力,在此基础上使用稀疏剪枝技术,裁剪出小模型来处理长文本任务,同时使用了大模型知识蒸馏技术,极大提升了小模型的通用能力。从而推出业界最优的130亿参数的大模型,在效果损失仅3% 以内的情况下,使得星火在文档上传解析处理、问答首响时间以及文字生成效率方面都获得了极大的效率提升。

图片

在长文本能力上,讯飞星火具备长文档信息抽取、长文档知识问答、长文档总结、长文档文本生成等能力,总体已经达到 GPT-4Turbo4月最新长文本版本的97% 水平,而在银行、保险、汽车、电力等多个垂直领域的知识问答任务上,讯飞星火大模型长文本总体水平已经超过 GPT-4Turbo。

在长图文能力上,科大讯飞面向复杂的图文场景推出星火图文识别大模型,以星火通用大模型为基座,结合视觉编码器和多粒度图文任务等构成。

图片

从效果来看,它能够直接处理非常复杂的版面分析,已经覆盖31个典型场景,比如书刊、学术论文、专利、报纸、海报、PPT 等,同时能自动识别标注出18类不同的版面要素,比如页眉、页脚、标题、段落、表格、公式、印章、手写等;融合篇章上下文语义进行文字识别,识别更精准;面向教育、金融、医疗、科研等专业领域深度优化,能自动实现更多领域的专业符号识别。

图片

根据国际公开的权威英文测试集来看,讯飞星火的图文识别效果超过微软和谷歌。从典型应用场景来看,效果在科研、金融以及企业产品技术文档等识别效果都处于业界领先地位。

科大讯飞,赞218

此外,面对广泛的音视频中信息高效获取需求,科大讯飞也推出长语音功能,将多年储备的语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,这个对于音视频场景的高效信息获取非常有用。

通过此次上新的长文本、长图文、长语音功能,我们在日常的学习、工作中,无论是长文本素材,随手拍的图文信息,亦或是会议录音,高效知识获取都可以通过一个大模型搞定。

AI 能 “情感共鸣”,还能一句话声音复刻

年初讯飞星火 V3.5发布会上,科大讯飞推出了超拟人对话功能,AI 的声音更自然更真实,拟人度达到了83%,广受用户欢迎。结合体验看,无论是语音可懂度、流畅度还是表现力,讯飞星火效果都超过 OpenAI、微软。

图片

此次科大讯飞发布多情感超拟人合成,进一步提升了情绪表达的可感知度,对高兴、抱歉、安慰、撒娇、困惑等情绪表达的可感知度达到85% 以上,AI 语音更加生动、真实。

它是如何做到的呢?概括来说,通用大模型 + 语音大模型,让语音合成更逼真。首先,基于星火通用大模型的能力,来预测文本中的口语化现象、情感、停顿等细节信息,这对于传达说话者的真实感受非常重要;然后,星火语音大模型学习人类的口语化表达方式后,对通用大模型预测的口语化信息进行还原,从而极大提高了合成的拟人化效果。

目前,昊铂 HT2024款车型行业率先搭载科大讯飞超拟人合成技术,已在4月25日正式全球上市。超拟人在车载、家电等行业的应用将会出现越来越多的落地成果。

科大讯飞,赞133

除了超拟人对话,科大讯飞还推出 “一句话声音复刻” 功能,用户只用在讯飞星火 APP 中跟读一句话,就可以复刻你的声音。

基于大模型在通用任务上的出色表现,在学习海量的人声数据之后,现在大模型能够实现在很少的声音数据情况之下,就能模仿出和原人声极为相近的声音效果。

以前想要模拟一个人的声音,需要这个人录制很长时间,随着技术的不断进步,从需要录制一周、到录制一天,再到现在基于大模型加持之下,只需要录制一句话,就能复刻出你的声音。比如模仿小朋友的声音,每天给爷爷奶奶读书读报;在我们出差的时候,模仿我们的声音给孩子讲故事。大家可以在讯飞星火 APP 上体验。

和郑爽视频

做真正解决实际刚需的大模型

国内大模型市场经过一年发展,已呈现出各自的差异化落地路线,比如字节豆包主打娱乐,而讯飞星火则更加注重实际刚需场景,这一点从其技术落地就可以看出。结合本次升级,科大讯飞董事长刘庆峰重点介绍了讯飞星火在招投标、合同、教育、科研等场景下的应用。

图片

比如日常生活中,我们在租房、装修或者商务合作中经常会遇到各种各样的合同,看不懂不想看存在风险怎么办?科大讯飞推出星火合同助手,它可以对我们的合同进行风险审核、合同比对,摘要总结以及合同生成,迅速识别潜在风险漏洞,它像个 “AI 法务” 一样帮你更好的应对合同场景。

图片

在教育场景,大模型进一步升级了讯飞 AI 学习机产品,不仅对作文的批改、对理科的批改更加精准,也让智能化辅学更有针对性更高效,还升级了百科问答功能,更好解答孩子的十万个为什么。智慧黑板中也升级了实录功能和星火教师助手,后者融入长文本能力后,可以把优质教辅内容融入,教师在备课的过程中就可以直接融入教辅教参中的内容,进一步丰富备课资源,提升备课效率。

此外,在科研场景,此前星火科研助手目前已在中国科学院、三亚崖州湾科技城、北京邮电大学、哈尔滨工业大学等机构高校铺开应用。多模态能力升级下,讯飞星火科研助手也进一步提升了论文问答、综述生成、实验解读等的效果,可以解析的学术资料更加丰富,进一步赋能高校和科研院所的科研工作。

上海网易严选线下店

面向用户场景之外,这一次科大讯飞也面向企业场景中知识管理与高效获取需求,推出智能体平台,敏捷触达大模型企业落地的最后一公里。

图片

企业构建智能体的关键环节可以概括为任务理解、任务规划、任务执行。刘庆峰介绍,针对用户的输入,首先,基于讯飞星火大模型聪明的底座能力,会自动实现用户输入的精准理解和任务规划。其次,解析完了相关的任务和对应的工具之后,讯飞星火也构建形成了包括天气、航班、企查查等成体系的外部信息来源的对接;

同时,星火智能体平台还通过互认证的机制,实现了往往是独立的、隔离的 OA 系统、CRM 系统以及 ERP 系统的打通,完成相应操作;最后,通过私域知识融入机制,智能体平台很容易实现企业所属行业以及企业私域知识的融入。此外,星火智能体平台还可以通过拖拽方式即可实现的新智能体的创建和多智能体的协作。

可以看到,讯飞星火这次升级更务实,都是为了解决用户真实场景下的刚需。刘庆峰也透露,科大讯飞将在6月27日发布讯飞星火大模型 V4.0,进一步实现对 GPT-4Turbo 的对标。


返回网站首页

本文评论
索尼ps5全球发售「索尼ps5 pro即将发布,ps5现已广泛发售」
索尼的ps5自两年前推出以来一直受到缺货的困扰,但2023年情况发生了变化。这款游戏机现已广泛发售,导致经销商以低于官方的价格出售。同时,ps5 pro预计将于明年年底发布,升级的cp...
日期:04-20
大妈踩丹霞地貌拍照 陕西回应:将追查 呼吁爱护自然景观_旅游博主踩踏丹霞地貌
8月7日消息,旅游时与美丽的景色合影拍照是很正常的一件事,但总有一些旅客为了自己能拍出好看照片,做出违规行为。索尼游戏机ps5参数华为p50pro渲染图日前,一段大妈踩丹霞地貌拍...
日期:08-07
抢攻 ai 的大厂先从哪些场景下手「抢攻 AI 的大厂先从哪些场景下手?」
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:阿爽,授权转载发布。变化正在快速发生!从OpenAI的ChatGPT-4聊天窗口转移到你我每天的工作中。比亚迪鲨鱼海鸥先有微软的...
日期:04-21
“全网最听劝的男人”为何能在小红书爆火?「玩小红书的男人」
声明:本文来自于微信公众号 卡思数据(ID:caasdata6),作者:岳遥,授权转载发布。“找不着对象,大家觉得我问题出在哪?”2016年新一代运载火箭长征首次发射成功pico4屏幕素质2021年1...
日期:02-15
宣亚国际宣布推出OrangeGPT 1.0版本将于近期启动内测「宣亚国际是什么公司」
6月2日 消息:传播机构宣亚国际宣布围绕主营业务相关应用场景,依托闭源及开源GPT人工智能底层关键技术全力打造OrangeGPT,预计1.0版本将于近期启动内测。宣亚国际表示,OrangeGPT...
日期:06-02
安心安稳赚钱首选嗨爆Happybox桌面游戏机(好嗨box盒子安卓版下载)
  嗨爆Happybox桌面游戏机、嗨爆KTV桌面投影游戏机作为国内桌面投影游戏行业的巨头,完全让初次创业者或者想投资代理夜店游戏机的代理商消除了资金、铺货的担忧,那么嗨爆Ha...
日期:07-27
基于昇思AI框架的全模态大模型“紫东.太初2.0”正式发布
【】6月16日消息,在人工智能框架生态峰会上,昇思MindSpore携手行业用户与伙伴带来人工智能框架的最新进展与系列重磅发布,全模态大模型“紫东.太初2.0”正式发布。《共建人工智...
日期:09-24
中兴秀肌肉!全球首款翻转折叠屏手机来了_中兴折叠屏幕手机
今年的MWC上,中兴展出了旗下努比亚小折叠Flip 5G手机,引起了广泛关注。这款手机搭载了骁龙7 Gen 1处理器和4310mAh电池,支持33W充电功率。除此之外,它的圆形副屏设计也很抢眼。2...
日期:03-02
马斯克“坑煞”中国友商_马斯克对华友好吗
作者:普子胥出品 | 网易科技《态℃》栏目组“今年一季度或许是汽车行业、新能源汽车行业最困难、最有挑战的时期。”在2月6日的媒体沟通会上,蔚来联合创始人兼总裁秦力宏表示,...
日期:02-11
redmipad最新消息「73.2天超长待机 红米入门平板Redmi Pad SE正式预约」
9月14日,Redmi入门平板Redmi Pad SE正式发布,定档9月21日与Redmi Note13系列同场发布。现在预约,立享先行者福利。 根据官方发布的海报,Redmi Pad SE配备了一块11英寸高刷护眼大...
日期:09-16
小米14在很多门店被预订一空 卢伟冰:产品强得无敌_小米 14薪
快科技10月25日消息,小米14系列即将发布,该机在线下门店开启了盲订。由于新品爆火,很多地方门店的小米14配额已经被预订一空,有网友反映没货”了,小米集团卢伟冰强调小米14产品力...
日期:10-26
oppo find 3.「表现堪比内屏!OPPO Find N3 Flip外屏功能惊艳」
在OPPO Find N2 Flip中,令人印象最深的设计,莫过于那块在竖折手机中称得上巨大”的外屏,以及随之衍生出的任意窗”功能。快科技8月28日消息,今天,OPPO官方发布视频,展示了OPPO Fin...
日期:08-28
三大运营商:“携号转网”服务在全国上线试运行_运营商携号转网发展方向分析
  11月15日消息 11月10日,工信部发布《携号转网服务管理规定》,根据“携号转网”全国推广工作进度安排,各电信企业和中国信息通信研究院已完成全国“携号转网”系统建设改造...
日期:04-02
微软SwiftKey输入法加入AR Emoji功能
  SwiftKey正在给它的移动键盘添加动图表情功能,这家微软旗下的公司正在利用人工智能将用户的表情细节用一个3D动物头像表达出来。   SwiftKey称这个功能为puppets,这个...
日期:02-26
美国科技巨头地图产品“迈出巨大一步”:沉浸式_美国新地标
凤凰网科技讯 北京时间9月29日消息,谷歌在当地时间周三的第三届年度搜索活动上表示,该公司将为一些地点推出“沉浸式视图”和“氛围”,添加一些视觉形式细节,方便用户提前探索相...
日期:09-30
诚信经营获回报 全球三十强网商可获阿里金融贷款支持
  日前,在杭州举行的第八届网商大会上, 刚刚获得“2011年度全球30佳网商”荣誉的企业主们又获得了一个好消息,他们均可获得阿里金融的低息贷款支持,最高获贷额度达100万元。...
日期:07-22
车厘子打败砂糖橘成年货顶流:价格持续下降 春节期间销量大增_车厘子marketside
新年之际,各大媒体争相报道一则热议话题:车厘子,这个在水果界的“新星”,正以其独特的魅力与品质,从众多年货中脱颖而出,成为今年春节的“C位担当”。为什么苹果手机的touch id突...
日期:02-01
美军无人航天器X-37B在轨908天后返回地球:6次飞了3774天「第390次航天发射」
北京时间2022年11月12日18时55分,美国太空军旗下的X-37轨道试验飞行器降落在佛罗里达州东海岸的肯尼迪航天中心。这是其第六次执行任务,在轨飞行长达908天,再次打破纪录。跨境...
日期:11-18
女子高铁抽烟列车长霸气回应「大爷高铁上抽烟致强制减速 女家属:不就是抽根烟」
2月6日,江苏南通,一大爷在乘坐高铁时抽烟,因烟雾报警器响起导致高铁强制减速。到站后,大爷被民警带下高铁,结果大爷和旁边的家人情绪非常激动,一直和民警争吵,大爷试图冲过阻拦,重新...
日期:02-10
2023支付宝集五福活动时间公布;巴菲特第7次减持比亚迪;B站公布2022年前9月净营业额
文章目录 2023支付宝集五福活动时间公布 巴菲特第7次减持比亚迪 B站公布2022年前9月净营业额 2023支付宝集五福活动时间公布今日,支付宝“集五福”瓜分红包活动正式开启,活动...
日期:01-10