您的位置:首页 > 互联网

易慧智能发布汽车行业大模型评测集,并重磅推出模型路由技术方案

发布时间:2024-10-28 19:35:40  来源:互联网     背景:

10 月 25 日,汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业首个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果,特别关注于汽车营销场景的应用评估。在此基础上,易慧智能重磅推出创新的模型路由技术方案——基于多模型的YiAgent群体智能技术框架。

此技术框架不仅融合了大模型路由技术,还巧妙地将大模型库、汽车行业大模型评测集以及YiAgent群体智能平台这三个子系统整合为一个有机整体。在这个创新的技术框架中,大模型路由依据汽车大模型评测的效果,为YiAgent群体智能平台中的每个Agent所负责的技能挑选出效果最佳的模型,从而实现技能的最优化配置和效用最大化。技术框架为企业客户提供以多个大模型驱动的群体智能协同工作平台,全力支持企业客户实现智能化转型。

应对复杂场景需求多模型成为主流

鉴于当下大模型使用场景的多样性、任务复杂度的提升,以及垂直行业专业需求的特殊性,当前无论是通用大模型还是垂直大模型,均展现出各自的局限性和不足。以内容创作为例,此领域涵盖了写作、翻译、知识问答、代码辅助、逻辑推理等多个维度,对于不同任务,各大模型表现差异较大,没有一家大模型可在所有任务上均达到最优。这一现状也为混合大模型的兴起提供了契机。

混合大模型旨在将市场中的主流大模型进行有机融合,针对特定任务需求,精准调用表现最优的模型,以实现精准解决特定问题的目标。通过“专业分工,协同合作”的理念,混合大模型致力于最大化各项任务的处理效能。近期, 360 公司推出的AI助手便是一个典型例证,该助手集成了国内 15 家顶尖大模型,构建了CoE专家网络模型,通过规模化的资源整合,集中各模型之优势,最终实现了更为卓越的性能与效率提升。

在汽车行业的营销领域,其核心能力与任务包含行业知识的深度掌握、内容创作的精准定位、高效对话能力的展现、数据分析的精细处理以及智能体支持的全面覆盖等多个维度。这些综合且复杂的需求,对大模型的能力提出了极高的挑战,也使得当前市场上的单一模型在应对此类复杂场景与任务时显得力不从心。而混合大模型方案的提出,则为解决这一系列难题提供了最为优化和可行的思路。

汽车营销领域首个垂直行业大模型评测集

据悉,易慧智能作为聚焦汽车行业的AI产品和业务解决方案提供商,拥有海量的用户行为数据和车型数据,在汽车行业数字营销、数字化转型方面拥有企业级的深刻理解和丰富的应用场景。易慧智能此次重磅发布汽车行业大模型评测集,并同步推出模型路由技术方案——基于多模型的YiAgent群体智能技术框架,这一举措深刻体现了其在技术创新领域的领导地位,同时也是其坚定践行以客户为中心发展理念的重要里程碑。

作为汽车营销领域首个大模型评测集,易慧智能选择了国内外具有代表性的 8 个闭源/开源的模型以及自研大模型共 9 个模型。针对汽车营销领域行业知识、内容创作、对话能力、数据分析、智能体支持等 5 大核心能力和超过 20 个子任务能力进行严格评测,并对每个评测类别制定独特的评测标准和方法,原创评测题目超过 1000 道。

在评测过程中,易慧智能重点关注大模型在汽车营销关键领域的表现。首先,就行业知识而言,评估大模型对汽车行业基础知识的掌握深度,以及其在看车、选车、购车、使用等全流程中展现出的专业知识理解和应用能力。

redmig2060

其次,在内容创作方面,考察大模型汽车领域内容生成能力,特别是其在撰写汽车种草图文、汽车短视频文案等方面的表现。特别关注大模型在营销内容创作上的多样性、准确性,以及其对字数、人设、场景等维度要求的指令遵循能力。

此外,在对话能力方面,测试大模型与用户进行自然语言交流的能力,包括但不限于语义理解、情绪识别、实体识别、对话推理等对话场景中的核心能力。

同时,数据分析也是评测的重要环节。易慧智能将考察大模型在处理和分析汽车行业相关数据方面的能力,如销售数据、用户行为数据等,并评估其在营销决策支持中的应用效果。具体的能力维度包括text2sql、指标计算、图表推荐以及报告撰写等。

最后,在智能体支持方面,易慧智能将评估大模型在支持智能体进行任务规划、流程推理、工具检索、参数理解以及工具使用等方面的能力,特别是在营销自动化和个性化推荐中的实际应用效果。

经过此次严格评测,结果显示无一模型能在所有能力上均独占鳌头。其中,在汽车知识与对话能力方面,自主研发的大模型以82. 17 与80. 62 的高分脱颖而出。值得注意的是,尽管GPT-4o仍保持其领先地位,但国内大模型正迅速追赶,差距正在逐步缩小。

此次评测结果还反映出通用大模型在应对具有行业特性的任务时显现出明显的局限性。无论其源自国内还是国外,相较于专为汽车领域定制的自研大模型,在汽车领域知识掌握及对话交互能力的核心指标上,得分普遍较低。这一发现也揭示出当前通用大模型在处理行业专属任务时遭遇的瓶颈,尤其是在需要深度专业知识与精准上下文解析的场景中更为凸显。相比之下,行业大模型由于拥有针对性的训练与优化,能够更为精准地捕捉并处理特定领域的专业知识与对话内容。因此,针对专业性要求极高的行业应用场景而言,选择垂直大模型无疑是更为合理且高效的决策。

易慧智能CTO叶明登表示,易慧智能此次评测的目标是提供一个全面、客观的评估框架,帮助汽车行业的决策者和技术开发者更好地理解和利用大模型技术,以实现汽车行业的智能化升级。特别是在营销场景下,我们的评测集能够更准确地衡量大模型在实际商业环境中的表现和价值。

易慧智能CTO叶明登

在此次评测中表现优异的自研大模型负责人同时也是易车副总裁张磊表示,自研大模型基于易车在汽车行业多年的深耕与积累,结合最新的人工智能技术,5T+的PT数据,百万级SFT(Supervised Fine-Tuning,监督微调)数据,DPO(Direct Preference Optimization,是一种用于对齐大模型与人类偏好的方法)安全对齐,实现了大模型在汽车领域的全场景支持、汽车知识及时更新、效果领跑,全面赋能汽车行业。此次评测结果的发布不仅揭示了大模型在汽车行业的应用现状,还突显了行业大模型相较于通用大模型在指导技术决策、推动技术创新、促进行业定制化、提升应用效能、推动私有化部署等垂直领域的独特优势。

易车副总裁张磊

阿里云os系统电视盒刷机

模型路由技术方案切实提升群体智能协同平台工作效能

此次易慧智能重磅推出的模型路由技术方案——基于多模型的YiAgent群体智能技术框架,作为一个有机系统,包含了大模型库、汽车行业大模型评测集、YiAgent群体智能平台三个子系统。

子系统一——大模型库优选当前主流大模型,通过定期的换入换出机制,紧跟当前业内最新技术动态进展。大模型库中的所有大模型都会在大模型路由中进行注册,并统一访问接口。为了满足不同企业客户对不同场景的业务需要,该大模型库中覆盖了各个维度的大模型,包括国内模型和国外模型、商业模型和开源模型、Saas模型和可私有化部署模型、通用模型和行业模型,未来将持续增加更多的优秀模型补充进来。

考虑到各个外部模型的持续更新迭代,易慧智能会定期对大模型进行升级迭代,尤其是微调参数量较小的模型,不断提升模型效果,降低成本。

当当网退出京东了吗

子系统二——汽车行业大模型评测集覆盖行业最全面的基础知识和营销核心场景能力,可根据真实应用场景实时更新评测数据,定期刷新大模型库中所有模型的评测结果,并将评测结果同步至大模型路由。

子系统三——YiAgent群体智能平台可以根据任务动态选择某个单体agent(数字员工)或者群体agent(数字员工团队)。Agent路由作为用户需求的总入口,执行“CEO”的角色。

单体agent(数字员工)完成任务所需不同技能可通过大模型路由动态选择最优大模型。

在YiAgent群体智能平台子系统中,大模型路由模块承担着为各项技能精准匹配最优大模型的重任。鉴于各大模型在专长领域上的差异,系统依据评测结果,为每项技能分配表现最为出色的模型。在模型表现相近的情况下,系统秉持成本效益原则,优先选用参数量较少的模型,以实现资源的最优化配置。此外,大模型路由模块还兼具负载均衡功能,当某一模型负载达到阈值时,能够智能地将部分请求引导至次优模型,确保服务的连续性与稳定性,有效规避服务中断的风险。

据业内资深人士分析指出,模型路由技术方案的发布,为大模型在汽车营销领域的实际部署与效能提升,开辟了一条极具价值的参考途径。此举不仅强化了易慧智能在汽车AI产品与服务解决方案领域的优势地位,更将实质性地推动AI技术在汽车行业内的创新步伐,实现行业整体效率与客户竞争力的显著提升。


返回网站首页

本文评论
马斯克回应比亚迪汽车销量超越特斯拉:我们是一家AI及机器人公司
IT之家 1 月 4 日消息,比亚迪汽车 2023 年累计销量 302.44 万辆同比增长 62.3%,第四季度纯电车型销量总计 526409 辆,而特斯拉 2023 年第四季度汽车交付量为 484507 辆,这意味着...
日期:01-04
谁胜出?, AI生视频 快手可灵-VS 字节即梦AI
【】8月12日消息,今年2月OpenAI发布文生视频模型Sora,其逼真而富有想象力的视频生成能力给大家带来AI震撼。Sora虽然能生成60s视频,但是并未对外开放使用,被视频业者戏称为“期...
日期:08-12
护士给病人拔针扎了怎么办「女子喊3遍拔针:护士打游戏不理会」
6月22日消息,福建泉州王女士带家人去医院挂夜间急诊看病,遇值班护士一直打游戏工作懈怠。王女士称,当时自己家属输完液要拔针,喊了护士3遍,但她一直在打游戏,最后直接走到护士面前...
日期:06-22
至少要能折叠20万次:谷歌或将设定折叠屏手机硬件标准「pixel折叠屏」
近年来,折叠屏手机逐渐成为了各大手机厂商新的发力点,各个厂商也都在不遗余力的宣传自家折叠屏手机的耐用程度。redmi note12有曲面屏但到底至少能够折叠多少次,才算得上是一款...
日期:08-13
2017年病毒事件_2011年首个重大恶性病毒节前发作
  下周即将迎来春节长假,很多朋友正在忙着买票回家。部分网友也开始筹划着在长假期间玩玩游戏、看看电影,好好放松一下。然而,一个叫做“温柔杀手”的恶意病毒正在互联网上...
日期:07-26
iqoo8pro 11ultra「曝iQOO 11S搭载3.2GHz骁龙8 Gen2处理器」
根据数码博主@数码闲聊站的爆料,iQOO 11S将搭载3.2GHz骁龙8 Gen2处理器,而非之前传闻的3.36GHz高频版。该博主还在评论区表示,如果加量不加价甚至大内存版本更便宜,冲不冲。据此...
日期:06-27
百度沈抖:解决算力问题,一云多芯是中国企业的必然选择
百度沈抖:解决算力问题,一云多芯是中国企业的必然选择 通信产业网|2024-07-19 16:37:40作者:通文来源:百度【通信产业网讯】7月19日,2024中国联通合作伙伴大会在上海召开。百度集...
日期:07-20
测测你的“防骗力”!“防范非法集资知识答题团队争霸赛”6月12日开启
6 月 12 日,由处置非法集资部际联席会议办公室指导、中国银行保险报和中国农村金融杂志社主办的“防范非法集资知识答题团队争霸赛”第三季暨防非达人选拔赛活动将正式开启(搜...
日期:06-09
特斯拉发布 FSD Beta V11.4.1 版本更新,具有重大架构改进
IT之家 5 月 11 日消息,特斯拉面向北美用户推送了 FSD Beta V11.4.1 版本更新,此次 V11.4.1 版本进行了重大架构改进。据马斯克所言,这一版本理论上可以作为 FSD V12.0 发布,但...
日期:05-11
一图盘点百度大脑AI开放平台的2020年_百度AI的2020
      开放273项AI能力,汇聚265万开发者   平均每1.2天新增或升级一项能力   十大创新产品,AI技术国际领先   加速AI场景落地,领跑产业智能化   ……   这些成...
日期:07-16
40周年的联想,宣布了下一个十年的重大方向_联想下一个新品
通信世界网消息(CWW)4月1日,联想集团2024/2025财年誓师大会在北京举行,董事长兼CEO杨元庆掷地有声的宣布了联想新十年的使命,“下一个十年,我们将继续自主创新,加速转型,增加就业,扩...
日期:04-02
全新设计风格,悉尼和多伦多的两家苹果Apple Store将迎来翻新
  苹果在2015年宣布了新的Apple Store设计风格,引入了「互动坊」「视频墙」「天才林」等新元素,此前店内的天才吧、不锈钢墙壁、瓷砖地板被天才林、石灰石墙和水磨石地板所...
日期:03-21
飞书功能「用飞书智能伙伴多赚了1000万,贵司“AI ready”了吗?」
“用飞书智能伙伴,我们一年能多赚 1000 万”,数米科技创始人如是说。这位能帮企业赚钱的飞书智能伙伴便是我们常听说的“AI”应用。 “AI”这一词我们现在应该都不会陌生,但高...
日期:01-05
Canalys:OPPO专利争议后的战略重塑_oppo申请专利
2024年1月24日,OPPO与诺基亚最终达成了一项全球专利交叉许可协议,结束了为期两年半的专利纠纷。这项全面协议涵盖了所有移动通信专利,包括必要的5G技术。该协议将解决包括德国...
日期:02-07
新西兰航空空乘努力用中文报菜名 拍摄者:他不懂中文但努力服务
5月25日消息,网友发视频表示,在新西兰航空,一位空少在完全不懂中文的情况下,面对中国乘客,依旧努力用中文为其提供服务。蔚来以租代购有网友评论:这才是空乘应该有的职业素养,点赞...
日期:05-25
马斯克的"读脑"设备首次植入人体,科学家期待什么?担忧什么?
2月4日消息,埃隆·马斯克(Elon Musk)创建的Neuralink旨在改变我们对脑机接口的认知,让科幻变成了现实。1月29日发布的消息中,马斯克宣布Neuralink已成功将其“读脑”设备首次植入...
日期:02-09
AI抢影视博主饭碗?阅片无数的AI,开始批量推荐“电子榨菜”
声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:阿虎,授权转载发布。吃饭五分钟,找剧两小时。很多时候饭菜凉了,下饭剧还没找到……谁没有过这样的经历:在视频平台上...
日期:11-10
日本最强火箭H3首飞失败:将于2024年2月发射2号机_日本最新火箭h2b
据日媒披露,日本宇宙航空研究开发机构(JAXA)宣布,将于2024年2月15日发射日本国产新型H3火箭的2号机。激光雷达测评H3火箭作为H2系列的继任者,全长63米,直径5.2米,卫星发射能力被...
日期:12-28
直击技术发展机遇和挑战,ChatGPT边界何在?
声明:本文来自微信公众号“DoNews”(ID:ilovedonews),作者: 苏舒 田小梦,编辑:杨博丞,授权转载发布。ChatGPT是今年科技圈最大的焦点。一方面,国内的科技巨头纷纷跟进,如百度发布文...
日期:04-23
人像绝了!张颂文晒小米14 Pro自拍照:直言国产手机质感很好
快科技1月13日消息,小米代言人、知名演员张颂文日前晒出了小米14 Pro钛金属版的自拍照。他在微博表示:北京雁栖湖国际会议中心,用我的手机拍的。”画面中,张颂文人像清晰立体,背...
日期:01-13