您的位置:首页 > 互联网

英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍

发布时间:2023-07-31 17:50:58  来源:互联网     背景:

7月31日消息:研究表明,对于类似 OpenAI 的服务,由于计算成本的计量和计费方式,英语输入和输出比其他语言要便宜得多,其中简体中文的成本约为英语的两倍,西班牙语为英语的 1.5 倍,而掸语则要贵 15 倍

Claude2,Anthropic,人工智能,聊天机器人

一项由牛津大学进行的研究发现,让一个大型语言模型处理一句缅甸语句子需要 198 个 tokens,而同样的英语句子只需 17 个 tokens。Token 代表通过 API 访问大型语言模型(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)的计算成本,这意味着使用服务处理缅甸语句子比处理英语句子要贵 11 倍。

这种「标记化」模型意味着在不理想的情况下,访问和训练非英语语言模型会更昂贵。这是因为像中文这样的语言与英语在结构上(无论是语法上还是字符数量上)有所不同,从而导致其标记化的成本更高。

举个例子,根据 OpenAI 的 GPT3 tokenizer,将「your affection」这个词组标记化为英语只需两个 tokens,而在简体中文中则需要八个 tokens。这是因为简体中文的文本虽然只有 4 个字符(你的感情),而英语文本有 14 个字符。

微软自己在解释其 ChatGPT 模型的 API 访问和使用的页面上提供了一个很有用的工具,其中甚至包括了一个标记化工具,您可以用来测试每个提示的标记成本。在那里,我们可以看到在英语中,1 个 token 约等于 4 个字符,100 个 tokens 约等于 75 个英文单词。但是这种数学规则并不能应用于其他任何语言,微软清楚地表明了这一点。

在人工智能相关的成本方面,英语的成本效益无可匹敌;例如,相对于输出而言,中文的成本是英语的两倍。但这只是 AI 公司迄今为止用于训练模型的可用训练数据的反映。人工智能的爆发已经向世界展示了高质量紧急数据(作为生活记录而产生的数据)的价值。

此问题直接关系到 AI 公司希望实现递归训练的愿望,即能够用自己的输出训练 AI 模型。如果实现了这一点,那么未来模型仍将显示英语与其他语言相比的成本效益,其他语言的复杂性和更有限的基础训练数据导致了更高的标记化速率。

苹果发布vr头显

为了进一步复杂化问题,似乎除了标记化之外,其他衡量成本的方法最终也会遇到相同的问题。无论是通过位数还是字符计数,显然没有任何一种语言能够超越英语的实际实用性——英语的「可压缩性」较高,因此标记数量较低。

这意味着问题不在于模型的货币化方式;它实际上是技术和基础模型在训练中的一个真实局限。而且不难想象,这个问题会影响到各个版本的多语言模型。毕竟,它们几乎都是以相同方式构建的。

当我们考虑到推出大型语言模型(如 ChatGPT)或生成式图像网络(如 Midjourney)的公司主要位于美国时,这种成本差异已经导致一些国家推出了培训和使用本地语言的大型语言模型的计划。中国和印度都这样做了,而且都声称这样做是为了配合英语为基础的 AI 网络所允许的创新速度。而这种速度主要受到访问和训练成本的限制。

三星固态硬盘970pro和evo

每个人都希望花尽可能少的钱获得尽可能多的东西,这是很自然的。而这些动态直接影响根据基础语言进行 LLM 培训和部署的成本。人工智能业务是如此复杂,其影响如此深远,我们必须非常小心地采取每一个小步骤。


返回网站首页

本文评论
投资基金背后_资本寒冬里,这家投行却逆势增长  背后有啥秘密不?
  来源:微信公众号-开柒 作者:八姐姐   话说,2018年被称为资本寒冬,特别是创投市场的寒冬一点也不为过啊。反正,八姐认识的好多投行和VC的童鞋日子都不太好过。比如,我...
日期:12-23
快手违规限制兑换「快手持续打击炫富拜金类不良内容 处置违规帐号23个」
10月17日 消息:近日,快手发布了关于打击炫富拜金类不良内容的公告第十四期内容,本次共处置违规视频129条,违规帐号23个。三星tab a 2016快手表示,为维护良好的平台生态环境,培养...
日期:10-26
曝荣耀80下周发布:2000价位段 2亿像素「荣耀20前置像素」
今晚有消息称,荣耀的新机荣耀80系列将在下周发布,虽然目前官方还没有官宣,但外观、芯片等已经曝光的差不多,并且已经完成了入网,荣耀80系列手机共有三个版本,分别是荣耀80SE、荣耀...
日期:11-08
三星数码相机「三星数码」
是三星电子旗下负责生产电子数码产品的子公司,分别在全球各地设有研发中心和生产基地。其主营业务包括智能手机、平板电脑、电视机、可穿戴设备、相机、笔记本电脑等数码产品...
日期:05-31
快手双11,真正的对手是拼多多「为啥拼多多比快手便宜」
声明:本文来自于微信公众号 奇偶派(ID:jioupai),作者 |春晖 编辑 |钊,授权转载发布。双11之战,对于各大电商平台而言,通常都是流量之战,是商家之战,更是GMV(商品交易总额)之战。尤其对...
日期:11-11
用友升级全球化业务体系,启动拓展欧洲、北美等海外市场_「用友新平台」
5月10日消息,昨日,用友宣布基于新一代数智商业创新平台——用友BIP,用友升级全球化业务体系,在进一步深耕东南亚市场的同时,启动拓展欧洲、北美、日本、中东市场,并为企业全球化扩...
日期:05-10
捐款100万美元给国际红十字会 Intel:90%的产能不受影响
  随着美国疫情的不断扩大,Intel公司也发表了自己的应对策略。当地时间3月19日,Intel CEO司睿博在官网发表公开信,宣布捐款100万美元给国际红十字会,并强调自家90%的处理器及...
日期:09-15
绘画辅助软件「易绘伴侣」三端重磅上线 脑洞具象化不是梦!
  3D建模绘画辅助软件Easy Pose官方中文版《易绘伴侣》今日正式上线IOS/安卓/PC多平台,这款专门为美术生、绘画爱好者和美术从业人员量身定制的3D建模绘画辅助软件,让脑洞...
日期:03-16
马斯克否认特斯拉不再与比亚迪合作:两家公司之间的关系是积极的
3月14日消息,近日有消息称,特斯拉已决定不再使用比亚迪的电池。马斯克在推特上回复网友时表示,媒体报道是假的。特斯拉和比亚迪之间的关系是积极的。截自社交媒体今日早晨,针对...
日期:03-14
吉利退出极氪股份「极氪回应将被吉利分拆上市:将以业务为先 确保7万辆年销量」
10月31日 消息:今日,吉利汽车公告称,已向香港联交所提交一份议案,内容有关建议分拆极氪并将其独立上市。华为手机mate50什么时候上市极氪方面就此回应称,“我们将根据相关法律法...
日期:11-02
小米 Civi 3 手机今晚开售:仿生双主摄、首发天玑 8200-Ultra,2499 元起「小米civi手机值得买吗?」
2023/5/31 09:47 小米 Civi 3 手机今晚开售:仿生双主摄、首发天玑 8200-Ultra,2499 元起 IT之家  远洋 5 月 25 日小米发布了小米 Civi 3 手机,主打双生双色潮流设计、前置...
日期:05-31
首发12999元起!RTX 4090公版显卡国行10月15日正式开售「rtx系列显卡原价」
今天,NVIDIA正式官宣,RTX 4090显卡将于10月15日在国内线下现货首发。据悉,此次NVIDIA将联合沈阳京东MALL、与华硕、七彩虹和微星赛达厂商一同,开售RTX 4090显卡。届时,用户可以购...
日期:10-09
LV总裁带儿女现身北京巡店 对国内市场表示看好「lv公司总裁」
6月27日,法国奢侈品巨头酩悦·轩尼诗-路易·威登集团(LVMH)总裁贝尔纳·阿尔诺来到北京,他和他的女儿以及小儿子一同巡视了核心商圈门店。instagram账号Facebook登录吗继埃隆·...
日期:06-29
三星s207月更新「三星Galaxy S23最快11月上!新增米色看」
中关村在线消息:10月8日,据相关爆料,三星Galaxy S23系列最快将于11月14日至11月17日期间的高通骁龙峰会亮相,新机或将首发搭载骁龙8 Gen2处理器。目前,三星Galaxy S23系列已获得3...
日期:10-12
助力京蒙扶贫协作,内蒙古阿尔山风光抖音视频播放量超2.3亿
  12月21日,“山里DOU是好风光”项目组发布内蒙古阿尔山市帮扶成果。据了解,通过传播推广,#阿尔山DOU是好风光#抖音挑战赛传播量达到了2.3亿次,今年“十一”期间,阿尔山市实现...
日期:02-14
高铁掌掴事件通报:被打女子被劝阻后再次打人 罚200元
5月10日,成都铁路公安处通报高铁掌掴纠纷事件”。三星ssd固件7401和7402有什么区别通报称,根据调查情况,认定杨某某用手背击打王某某面部属殴打他人的违法行为;王某某遭到击打后...
日期:05-11
分析称苹果应用程序收入三年后有望超音乐(苹果音乐每月)
iTunes商店收入增长图(腾讯科技配图) (罗松)北京时间6月16日消息,据国外媒体报道,数据调查机构asymco评估师Horace Dediu分析称,苹果App Store收入三年后有望超过iTunes Music St...
日期:07-30
三星s3_三星s3上市时间
三星S3是一款由韩国电子公司三星推出的智能手机。它是三星公司第三代Galaxy S系列的产品,于2012年5月发布。三星S3采用了4.8英寸的高清Super AMOLED显示屏,分辨率为1280×720...
日期:05-31
一江共一脉·川鄂共举杯  2023川酒全国行掀起川酒旋风_川酒官网
一脉长江水,横亘东西分界南北,上酝巴蜀佳酿,下氲楚风汉韵,让川鄂两省水脉相通、酒脉相连、文脉相通。4 月 21 日,以“一江共一脉·川鄂共举杯”为主题的2023“川酒全国行”武汉站...
日期:05-12
OpenAI CEO“凡尔赛”:称ChatGPT是糟糕的产品
近一段时间,包括比尔盖茨、黄仁勋等一系列科技行业的顶流”人物,纷纷将ChatGPT视作新时代的标志,对其寄予厚望。但打造ChatGPT的OpenAI,似乎对这款产品并不满意。近日,OpenAI的联...
日期:02-15