您的位置:首页 > 互联网

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

发布时间:2023-09-26 18:24:33  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】昨天,Baichuan2-53B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。

百川大模型,昨日全面升级!

就在9月25日,百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。

体验地址:https://www.baichuan-ai.com/home

这一次,它的数学和逻辑推理能力显著提升。

更重要的是,通过高质量数据体系和搜索增强,Baichuan2-53B的幻觉大大降低,是目前国内幻觉问题最低的大模型。

不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan2-53B API接口。

这意味着,百川智能正式进军To B领域,从此将开启商业化进程。

幻觉处理,国内遥遥领先

android机型适配终极篇

最值得一提的是,新升级的Baichuan2-53B,在幻觉处理上已经在国内行业遥遥领先了。

简单讲,幻觉就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。

别看GPT-4在多种任务上表现突出,但也无法逃过这一诅咒。

那么,为什么大模型会出现幻觉?

4月,OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。

在Schulman看来,LLM黑盒内部隐藏着一个知识图谱。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。

针对这一难题,百川智能又是如何在大模型的幻觉处理上,做到业内领先的呢?

在高质量数据构建上,Baichuan2-53B独创了一套数据质量体系。

以低质、优质为标准将数据进行分类,确保Baichuan2-53B始终使用优质数据进行预训练。

另外,在信息获取方面,Baichuan2-53B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。

这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。

库克工作经历

比如,在解释勾三股四弦五这个问题上,GPT-4显然是在胡说八道。

相比之下,Baichuan2-53B一次就给出了正确的回答。

再比如,周树人和鲁迅是不是同一个人这道经典问题,Baichuan2-53B的回答既全面又准确。

可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan2-53B有效降低了模型幻觉。

经过FacTool评测后的结果显示,Baichuan2-53B的综合得分为140.5,在主流基础大模型中仅排在GPT-4之后,处于国内领先水平。

FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta 等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。

项目地址:https://github.com/GAIR-NLP/factool

能力升级,推理100% up

其实,Baichuan2-53B已经是百川智能发布的第6款大模型了。

4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!

早在8月8日Baichuan2-53B刚发布时,它就表现出了优异的知识问答、文学创作才能。

如果要问,评价一款大模型是否领先的重要指标是什么,相信数学和逻辑推理能力,会是诸多业内人士给出的答案。

这次,在Baichuan-53B的基础上,Baichuan2-53B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。

具体来说,它的逻辑推理能力提升100%,数学能力提升31%,语言理解能力提升29%,文本创作提升18%,知识问答提升9%。

数学推理

数学能力大升级的Baichuan2-53B,做起数学应用题来当然是不在话下。

比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?

Baichuan2-53B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。

再比如下题中,Baichuan2-53B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。

再来个经典的两地相距多少千米的问题,Baichuan2-53B通过分步计算,得出了正确答案。

推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?

Baichuan2-53B毫不费力,直接得出星期四!

接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。

现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?

Baichuan2-53B行云流水地开始作答,6步内给出了正确答案。

经过多轮的测试可以发现,升级后的Baichuan2-53B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。

时效问题

而在时效性这方面,Baichuan2-53B的表现可谓十分优异。

杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上,也答对了。

甚至,Baichuan2-53B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。

再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。

此次电影节,是否有中国电影和演员获奖?

Baichuan2-53B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。

梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。

对此,Baichuan2-53B也是了如指掌。

同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。

开放API,正式进军商用

不仅如此,这次Baichuan2-53B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。

API地址:https://platform.baichuan-ai.com

这项服务是否有门槛呢?

可以说,几乎没有。Baichuan2-53B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。

而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。

总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。

要说企业用户最关注的,莫过于安全合规问题了。

对此也无需担心。

作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。

而借助着Baichuan2-53B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。

可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。

参考资料:

https://www.baichuan-ai.com/home


返回网站首页

本文评论
斯坦福创意速成课「斯坦福研究人员推出 Sophia 可高效低成本训练大模型」
7月26日 消息:斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。ligh...
日期:07-26
ai操作工「使用AI工作后觉得自己像“小白鼠”:工资不变,工作量超级加倍」
声明:本文来自于微信公众号 InfoQ(ID:infoqchina),作者:核子可乐、褚杏娟,授权转载发布。我们已经在无数报道中听到这样的言论:新一代 AI 工具有望简化日常任务、提高工作效率并...
日期:07-25
与用户做朋友,看新国货品牌如何携手用户“共创”健康科技产品
  1月7日,知名大健康新国货品牌SKG将在线上发起“用户共创”活动,邀请SKG“核心意见官”用户与品牌的产品经理、工程师进行“零距离”沟通,深度激发用户参与感的同时,也使得S...
日期:05-13
“贾跃亭下周回国”要成真? 法拉第未来中国总部落户黄冈
凤凰网科技讯 1月18日消息,法拉第未来(Faraday Future,FF)今日宣布与湖北黄冈市政府达成了不具约束力的合作框架协议,计划将其未来的FF中国总部迁至黄冈市,同时保留其位于加州洛杉...
日期:01-18
阿维塔增资扩股进展「一季度卖1辆平均亏超10万?三年亏损23.7亿的阿维塔再次启动募资」
在今年一季度,阿维塔净亏损约6.4亿元,共交付5654辆阿维塔11。宏碁2018年顶级笔记本近日,重庆产权交易网披露一则阿维塔科技(重庆)有限公司(下称“阿维塔”)增资项目。该项目信息显...
日期:06-14
中国迪士尼计划裁员32000人「迪士尼宣布将裁员7000人 约占其全球员工总数3%」
2月9日消息,据外媒报道,当地时间周三,迪士尼宣布,将在全球范围内裁员7000人,约占其全球员工总数的3%,此次裁员是该公司本周三宣布的55亿美元成本削减计划的一部分。智己l7发布会直...
日期:02-13
iQOO 11S发布:200W闪充直屏手机 售价3799元起_iqoo闪充多少w
7月5日 消息:昨日,iQOO数字系列推出了全新的超级旗舰手机iQOO11S。这款新机采用了第二代骁龙8移动平台,为用户带来更出色的性能和体验。相较上代平台,该平台集成的Kryo CPU性能...
日期:07-05
低价狂抢俄罗斯石油1年后!印度推100%乙醇汽车:国内剩余粮食多_俄罗斯汽油价格多少钱一升
8月31日消息,持续低价抢购俄罗斯石油1年多的印度,显然也没有闲着,其正在开拓更多的资源类型。可穿戴设备该如何争夺物联网的入口和权限现在,全球首辆全乙醇动力汽车在印度新德里...
日期:08-31
李强出席全国新型工业化推进大会并讲话
全国新型工业化推进大会9月22日至23日在京召开。会上传达了习近平重要指示。中共中央政治局常委、国务院总理李强出席会议并讲话。4399英雄远征贴吧李强在讲话中指出,习近平...
日期:09-25
南极洲降水少为什么会形成巨厚的冰层「NASA发现以前未知的南极冰层损失:“南极洲的边缘正在崩塌”」
在预测全球海平面上升方面,最大的不确定性是南极洲的冰层损失将如何随着气候变暖而加速。由位于南加州的美国宇航局(NASA)喷气推进实验室(JPL)的研究人员领导的两项研究揭示了关...
日期:09-17
1688的活动「1688推出“春节不打烊 服务1元购”活动」
1月17日 消息:2023年春节就要来了,1688推出“春节不休息,服务一元购”活动,提供工具必备攻略,协助商家备战春节。对于春节期间处理订单发货需求,1688推荐选用服务市场中的“订单...
日期:01-18
vivo手机find x2「vivo x fold2发布7大领先技术」
vivo x fold2正式发布,拥有7大全球领先技术,包括:激光投影横评内外双旗舰屏2k+ e6显示屏自主研发航空级水滴铰链120w有线+ 50w无线闪充第二代骁龙8旗舰芯片业界领先vc液冷3d超...
日期:04-21
截至9月底全国新能源汽车保有量1149万辆 占汽车保有量的3.65%_我国新能源汽车总保有量超过400万辆
10月8日消息,据公安部统计,截至2022年9月底,全国机动车保有量达4.12亿辆,其中汽车3.15亿辆;机动车驾驶人4.99亿人,其中汽车驾驶人4.61亿人。闫俊杰图片截至9月底,全国新能源汽车保...
日期:10-11
2022年抖音房产内容互动量超过200亿次 高活跃兴趣用户达1.2亿「抖音房产板块」
3月23日 消息:今日,巨量算数发布《2023抖音房产生态白皮书》。白皮书指出,2022年,抖音房产内容的互动量超过200亿次,包括点赞、评论、转发的互动行为同比2021年都实现了稳定增长...
日期:03-24
MSN中国将与搜狐合作进军视频领域
  11月1日消息,昨天下午据消息人士透露,MSN中国已经与搜狐视频达成战略合作,MSN门户及IM工具都将和搜狐视频绑定,双方甚至会在资金上进行深度合作。   上周有消息称MSN有意...
日期:07-24
抖音上线电子烟花《地球切线》 蔡国强亮相直播间揭秘开幕式幕后
  2月4日晚,2022年北京冬奥会开幕式在国家体育场鸟巢举行。这场备受关注的开幕式盛典,由08年奥运会创造“大脚印”烟花的蔡国强老师,担任烟花总设计师,带来包括“春来了”和...
日期:07-17
华为发布盘古汽车大模型,可将自动驾驶学习训练周期从两周以上缩短至两天内
通信世界网消息(CWW)近日,华为常务董事、华为云 CEO 张平安发布了盘古汽车大模型。张平安表示,盘古大模型“不仅要做难事,更要帮助千行万业的客户解最难的题”。盘古汽车大模型通...
日期:09-22
苹果高管解释为何新Mac Pro缺乏独立PCIe显卡支持「苹果电脑没有独立显卡有什么影响」
IT之家 6 月 12 日消息,苹果公司最近推出了新款 Mac Pro,这款台式电脑采用了苹果自研的 M2 芯片,拥有高达 76 核的 GPU 和最多 192GB 的统一内存,性能大幅提升。然而,与之前的英...
日期:06-12
苹果 iPhone 15 Pro Max 的屏幕峰值亮度将提高到 2500 尼特「iphone 11 pro max亮度多少尼特」
IT之家 2 月 8 日消息,根据国外科技媒体 AppleInsider 报道,引用可靠消息源 ShrimpApplePro 的最新推文信息,苹果将会进一步提高 iPhone 15 Pro 和 iPhone 15 Ultra(或 Pro Max)...
日期:02-09
Stability AI发布DreamStudio开源版 命名为StableStudio_stream design
5月18日 消息:日前,Stable Diffusion背后的公司Stability AI 宣布推出 StableStudio,这是其 DreamStudio AI 文本到图像网络应用程序的开源版本,展示该公司致力于推进开源开发...
日期:05-18