您的位置:首页 > 互联网

揭秘 watsonx 平台构建的幕后开源技术

发布时间:2023-05-11 16:55:53  来源:互联网     背景:

作者:

Talia Gershon, IBM 研究院混合云架构研究总监

Priya Nagpurkar, IBM 研究院混合云平台研发副总裁

Carlos Costa, IBM 研究院基础模型和多云业务首席研究科学家

Darrell Reimer, IBM 研究院杰出工程师


基础模型和生成式 AI 激发人类的集体想象力,推动我们发现改善生活和工作方式的新方法。 从通过自然语言实现更加无缝的技术交互,到自动生成代码或其他数据,再到跨科学各个领域的用例,再到应用于多科学领域,基础模型的应用场景与日俱增越来越多。 IBM 的目标是将该技术融入我们的产品组合多个产品,帮助我们的客户快速高效且安全地将基础模型应用到他们自己的产品中。在自己的产品中应用基础模型。在这一过程中,我们分享了为什么在 IBM Cloud 中构建 AI 超级计算机 Vela。 这项工作大力推动我们重构整个技术堆栈,从而加快我们训练、微调和部署尖端 AI 模型的步伐。 通过这个过程,我们成功构建了一个面向基础模型时代进行优化的现代化、灵活的 AI 软件栈。本博文将介绍在 Red Hat OpenShift Container Platform 上运行的高性能云原生 AI 训练堆栈,该平台是新推出的watsonx 平台的构建基础。作为训练堆栈的补充,我们的技术栈可降低成本与优化性能,对基础模型进行调整并为其提供服务。 以下多项技术已贡献给开源社区在开源社区中发布,如 PyTorch、Ray、Kserve 和 Open Data Hub (ODH) (一个可在 Kubernetes 上构建、部署和管理数据密集型应用的开源平台)。 在 ODH 上发展成熟的技术随后被引入 Red Hat 的 OpenShift AI,IBM 目前的新一代 AI 平台 watsonx.ai 使用 Red Hat OpenShift AI。 借助这种方法,IBM 和 Red Hat 为客户提供最先进的开源基础模型栈,以支持在他们选择的任何环境(本地、IBM Cloud 或其他公有云)中运行。

如需了解IBM技术、产品和服务的更多信息,点击访问IBM官网。

我们的基础模型训练方法

我们在开始重构 AI 训练堆栈时有两个目标。 首先,一是希望保持传统 HPC 系统的实用性:最大程限度提高硬件利用率,并高效利用高性能基础架构。 其次,二是希望提供混合云开发体验的灵活性和生产力优势:提高开发敏捷性和代码重用率,简化基础架构和软件的管理与扩展。 为了实现第二个目标,我们使用 Kubernetes 构建解决方案,通过容器复用代码以及扩展软件。 但这一决定意味着我们需要将 Kubernetes 转化为可处理高性能工作负载的平台。

我们还需要一个可以应对每一步 AI 训练工作流程的解决方案:进行数据预处理、分布式训练和模型验证。 我们确定了合作的关键开源社区,共同处理端到端工作流程,确定了需要克服的关键用户体验障碍,以便用户启动、运行和扩展工作。

下图1的左侧介绍了我们的训练软件堆栈的整体情况,该堆栈自2022年底以来一直在 IBM Cloud 的 Vela 上运行,由 IBM 研究院使用。 图1右侧描述了我们用于调整和提供基础模型的堆栈,稍后将在博客中详细讨论。



图1:我们的云原生软件堆栈,用于训练和验证(左)以及调优和服务(右)基础模型 高级 Kubernetes 原生资源利用与管理

这项工作伊始,Kubernetes 生态系统在大规模和高性能 AI 工作负载方面仍然存在重大差距。 早期关注的重点领域之一是将基础架构功能(如网络资源)应用于工作负载,而不会产生额外的开销。 为此了实现这一想法,我们创建了一个多 NIC CNI 操作程序,消除了封装,可配置底层网络接口并将网络延迟减少了一半,消除了封装,同时与开箱即用的容器网络解决方案相比带宽增加了七倍。带宽比即用型容器网络解决方案多出7倍。 这些改进对最终用户完全透明。

我们尝试填补的第二个空白领域是使用正确的云原生作业调度程序。 由于大量 AI 开发人员希望提交作业以在 Vela 上运行,我们需要一个调度程序来分配资源并确定作业的优先级,以最大限度地提升资源利用率。 为了解决这个问题,IBM 研究人员创建了多集群应用进程调度程序 (MCAD),可提供作业队列、作业优先级与抢占、超时以及系统用户之间的资源共享编排。 此外,我们启用了工作负载打包和分组调度,以消除资源碎片,这些都通过 OpenShift 实现。 我们进一步开发了InstaScale,它与 MCAD 共同动态扩展云托管的 OpenShift 集群。 通过自动从云提供商获取 GPU 并按需发布,InstaScale 让从业者不必担心基础架构管理和成本问题。

高效、可扩展的数据预处理,模型训练与验证

为了使 AI 管道中的所有运行步骤简单高效,我们主要运用 和贡献PyTorch 和 Ray 这两项关键的开源技术,并做出自己的贡献。 借助 Ray,我们使用数据科学家友好的 Python API 实现了可扩展的数据预处理(例如使用仇恨、滥用和亵渎过滤器过滤数据)和后处理步骤(例如模型微调和验证)。 通过运行Ray with MCAD,我们支持通过并发运行的异构 Ray 作业高效共享资源池。

我们正与 PyTorch 合作推进对分布式训练的支持,包括通过引入 rate_limiter 来改进对完全分片数据并行 (FSDP) 训练 API 的支持。 我们最近展演示了在基于以太网的环境(如 IBM Cloud 中的 Vela)上为参数为10B+ 的模型高效扩展分布式训练作业。 此外,通过集成MCAD 与 TorchX(TorchX 是 PyTorch 应用的通用作业启动器),我们能够使用不同 API 和框架以透明方式支持多种基于 PyTorch 的作业。 这些工作都受底层工作管理系统的支持,无需 AI 从业者修改代码。

简化用户体验

工作流程本身的训练分为以下三个步骤:模型探索(通常是使用一些 GPU 运行的缩小试验)、扩展分布式训练作业(消耗数百个 GPU)以及模型验证。 对于许多 AI 从业者来说,编排这些步骤可能很复杂,而且配置和管理的时间长。 我们通过CodeFlare项目解决了这一挑战,它能够提供引导式、简化的用户体验,以有效地提高训练、测试和监控模型训练生命周期的效率。

CodeFlare CLI(基于控制台和 UI)指导用户应对复杂的远程 OpenShift 集群运行,同时自动执行作业配置、存储设置、日志记录以及管理用于监控和分析的端点。CodeFlare SDK(基于 Jupyter)为用户提供直观的 Python 界面,进行批处理资源请求处理、作业提交和观察。 借助这些功能,我们大大降低了 AI 研究同事进入云原生堆栈的门槛。

在 Vela 上运行我们的软件栈

到2022年底,IBM 的所有基础模型训练工作都过渡到在 IBM Cloud 的 Vela 上运行此软件栈。 如今,MCAD 管理这些 AI 作业的队列,从单 GPU 作业到利用超过512个 GPU 的作业,并处理作业优先级和配额管理。 我们在过程中发现了其他方法,可以让团队在以 GPU 为中心的环境中(如 Vela)中管理 OpenShift 集群更轻松,例如,通过增强 OpenShift Installer 配置基础架构 (IPI),以便更轻松地在高性能基础架构上部署和管理 OpenShift。

我们的基础模型调优和服务方法

训练和验证最先进的基础模型是 AI 价值链的关键早期阶段,但当模型在 AI 工作流程的调优和推理步骤中投入生产使用时,最终会捕获真正的价值。 我们用于推理和模型调优的软件栈主要是在底层硬件上高效执行模型,以最佳方式批处理传入的请求,简化 AI 与应用的集成,并提供最先进的模型适应技术。 上图1的右侧介绍了我们的基础模型调优和服务栈,以下是更为详细的描述。

推理性能

用于优化基础模型在给定硬件平台上运行方式的软件库可以将吞吐量和延迟提高10-100倍。 我们的服务软件栈中有一组精心设计的成熟优化路径(包括 ONNX 和 Hugging Face Optimum),用于推理常见模型架构,并且可扩展,以能够适应新的推理服务器或优化。 考虑到 AI 和开源社区的快速创新步伐,可扩展性是我们软件栈的关键设计点。 此外,真正的 AI 服务会同时收到来自多个用户的、针对多个模型的大量推理请求。 我们的服务堆栈动态批处理传入的请求,并通过构建和反馈 Hugging Face、Kserve 和 Model Mesh 社区,有效地在模型之间进行多路复用。

简化应用程序集成

目前可用于运行 AI 模型的推理服务器需要用户具备大量的 AI 专业知识。 模型的输入和输出都是张量。 对于希望利用这些模型完成任务的应用开发人员来说,这种格式并不易于理解。 为了使此过程对开发人员更加友好,必须将模型输出转换为更易于使用的内容。 我们创建了 Caikit 抽象层,可为应用开发人员提供直观的 API 和数据模型,并提供一个稳定的接口,支持模型和应用独立发展。 这一抽象层在 IBM 的 Watson 模型中使用,用于提供基础架构,并将很快贡献给开源很快将作为开源项目提供。

基础模型调优整

基础模型的关键价值主张之一是能够利用预训练的基础模型,并使用专用数据“调优整”或“适应”,以提高其下游任务的性能。 我们的目标是打包最先进的技术,以实现计算效率高的模型自适应,让不甚了解其工作原理的人也能够使用。 我们的可扩展堆栈目前支持多任务提示调优 (MPT) 和微调,通过开源项目参数高效微调 (PEFT) 集成。 在接下来的几个月里,我们将开源一些提示调优算法和实现。

和 Red Hat合作

IBM 研究院正在与 Red Hat 合作,我们将开发的功能贡献给主要开源社区,直接发布在Open Data Hub(ODH),让其他人也从这项工作中受益。 ODH 是一个全面的开源工具集合,旨在利用 OpenShift 的优势来推动整个 AI 开发生命周期。 Open Data Hub 中引入的许多技术已发展成为 Red Hat OpenShift AI 的一部分,并作为 watsonx.ai 的中间件基础提供服务。 图2显示了本博客中描述的对各种开源贡献将如何汇集到 ODH 中以支持基础模型用例。


图2:云原生 AI 软件对 Open Data Hub 和其他社区的贡献

三星手表充电底座

后续工作

面向基础模型时代重构我们的端到端软件栈对我们的 AI 社区具有相当大的价值。 AI 研究人员不再需要非常深入的基础架构知识,就可以让作业高性能运行。 他们不再需要弄清楚如何将作业从几个 GPU 扩展到数百个,或者如何精确地分配作业以实现高工作负载性能,现在这些任务都可以交给软件栈处理。 代码可以跨团队得到重新使用,试验也易于重现复制。 我们还大幅简化了 AI 开发人员如何以高计算效率和开发人员友好的方式提供和调整基础模型的方式。

或许最重要的是最重要的一点可以说是,在 OpenShift 上构建此堆栈提供了对其他环境的可移植性,让合作伙伴可以在本地和任何公有云中使用这些功能。 我们很高兴与红帽一起通过开放数据中心将这些创新引入开源社区我们很高兴与 Red Hat 开展合作,我们通过 Open Data Hub 将这些创新内容引入开源社区,在 Kubernetes 上推进 AI 工作流程方面的最新技术,并为在 Red Hat OpenShift AI 和 watsonx.ai 中使用这些创新内容奠定了基础。 通过这种方法,我们为基础模型的端到端生命周期启用了一个企业级平台。 我们期待与您在上游社区进行合协作。

新能源汽油对车的损害

如需了解IBM技术、产品和服务的更多信息,点击访问IBM官网

或扫描以下二维码进行访问:


返回网站首页

本文评论
索尼Xperia 5 IV国行卖6599元:6.1英寸屏 机身宽度与iPhone 8相当_索尼6.1寸手机
今天,索尼京东自营旗舰店公布了Xperia 5 IV国行售价:6599元。该机将于10月份正式发布,届时索尼会正式公布Xperia 5 IV的上市时间。苹果公司的库克苹果applecare保障这是一款小...
日期:10-02
女子摔跤上牙磕进嘴唇1月后才发现 医生惊叹不已:网友直呼心太大
3月24日,江西南昌一女子摔跤把上颌的半颗牙摔掉了,一个月后在上嘴唇里找到碎牙,引发广泛关注。iphone13 pro max磁吸壳口腔诊所周护士介绍称,该女子一个月前摔了一跤,之后嘴唇一...
日期:03-25
开门红!旗天科技数字生活营销业务牵手工行和邮储
  新年伊始,旗天科技迎来双喜临门,旗下数字生活营销业务小旗欧飞连中两标,分别牵手中国工商银行和中国邮政储蓄银行,实现开门双红。   为什么纷纷选择与小旗欧飞合作?理由...
日期:07-10
谷歌对手「被颠覆、被捅刀、被群嘲:谷歌还能打赢这场AI之战吗?」
声明:本文来自于微信公众号 雪豹财经社(ID:xuebaocaijingshe),作者:黄鹏,授权转载发布。过去4个月,皮查伊可能是美国科技界最慌乱的CEO。从2014年收购DeepMind算起,谷歌这十年都没...
日期:04-27
国家邮政局:国庆假期全国共揽投快递包裹超41亿件_近日,国家邮政局公布,随着快递业
10月8日 消息:国家邮政局公布数据称,10月1日至7日,全国邮政快递业运行安全平稳,共揽收快递包裹21.35亿件,与2021年同比增长7.23%;投递快递包裹19.67亿件,与2021年同比增长2.61%。...
日期:10-11
脉脉高聘:超八成猎头不到35岁,六成猎头年薪不到15万「脉脉招聘官网」
近日,脉脉高聘发布了《2023新经济领域猎头发展图鉴》(以下简称《图鉴》)。《图鉴》数据显示,超过半数猎头从业者年龄在30岁以下,六成从业者年薪不足15万。北京、上海、成都是猎头...
日期:03-03
coloro与swatchbook合作整合色彩智能与材料智能(color swatches)
  2021年4月,coloro®与swatchbook正式达成合作,coloro®的3500个标准色自此全部在swatchbook平台中开放使用。该项合作将为全球鞋品和服饰类用户提供更优质的色彩管理和智...
日期:02-12
奥斯卡影片哪里看?“玩客云”可盐可甜还能拿礼物!
  日前,第91届奥斯卡颁奖礼在美国洛杉矶落下帷幕,《绿皮书》摘得最佳影片,《波西米亚狂想曲》一举拿下四大奖项成为最大赢家,主演拉米·马雷克也因此获得最佳男主角。   一...
日期:10-03
899 元就有 14 Pro 灵动岛,乐视手机 S1 Pro 开售
2023 年 1 月 12 日消息,乐视手机 S1 Pro 现已在乐视商城开售,售价为 899 元,值得一提的是,这款手机外观基本复刻了 iPhone 14 Pro 的模样,灵动岛也是一样一样的。轻薄本多大内存...
日期:01-12
AMD锐龙7000 3D版暴力堆料144MB缓存 微软神助攻:Win11专属优化
AMD今天在CES展会上发布了多款处理器及显卡,其中锐龙7000 3D缓存版尤其引人注意,这次共有三款型号,分别是锐龙9 7950X3D、锐龙9 7900X3D及锐龙7 7800X3D,提供了8核、12核及16核...
日期:01-06
金山毒霸服务器版_金山发力企业级安全市场 推出毒霸网络版V7.0
  5月31日,国内知名网络安全厂商北京金山安全软件有限公司重磅推出新一代企业级防病毒旗舰产品——金山毒霸网络版V7.0,包含企业和高级企业两个版本。该产品不仅能满足不同...
日期:07-28
“刷视频赚钱”套路为何屡打不绝「所谓的刷视频赚钱」
;  李英锋  “边刷视频边赚钱”“轻松日赚百元”……近期,在部分短视频平台、社交媒体平台上经常能看见这样的广告语,推广一些号称可以通过刷视频赚钱的App。刷刷视频就能...
日期:09-29
巴菲特的伯克希尔公司股价值多少「巴菲特再捐240万股伯克希尔股份 价值约7.59亿美元」
11月24日 消息:监管文件显示,11月23日,沃伦巴菲特向慈善机构捐赠了240万股公司 B 类股票,按照收盘价计算,价值约7.59亿美元。其中,巴菲特向苏珊汤普森巴菲特基金会捐赠了150万股...
日期:11-27
仅需499元乐视版iPhone 14现货开售
近日,乐视宣布旗下的乐视手机Y1 Pro+现货开售,提供6GB+64GB、4GB+128GB、4GB+256GB三种配置,售价分别为499元、599元、799元。中兴天机axon 10 pro4g版这款手机外观造型非常像i...
日期:12-01
卓越同行,创联未来 2019三星中国开发者沙龙即将开幕
  5月17-24日,2019三星中国开发者沙龙将在北京、深圳、上海三地陆续展开。据悉,本届三星中国开发者沙龙将吸引超过600名移动应用开发者和相关专业人士到场。在此次活动中,参...
日期:05-06
夺命的野生景点 是如何成为“网红打卡地”的(旅游攻略网红打卡)
作者: 乐琰   高温热浪带火了城市周边的避暑休闲游,然而此时却发生了意外。   周末或假期,在四川彭州市龙门山镇小鱼洞社区龙槽沟的河道上,人们铺开桌子搓起了麻将,或在露营...
日期:08-16
OPPO小游戏公布第八期“萤火虫计划”名单,助力小游戏开发者
  近日,OPPO小游戏公布了第八期的“萤火虫计划”名单,分别是《扶老豆回家》、《超级变变变》和《流浪猫求生之路》。“萤火虫计划”自2019年7月宣布启动以来,总计公布8期,已...
日期:04-19
国庆低价酒店「国庆度假酒店价格猛涨 你会“宅”在酒店过“十一”吗?」
  中新网10月1日电(中新财经记者 吴涛)“睡到大中午,不去逛景点,宅床打游戏,房间吃外卖,晚上去散步”,这样的度假方式越来越受年轻人喜欢,随着国庆假期的到来,很多人都想找个精品...
日期:10-02
iOS天气app「苹果 iOS 16 更新,天气 App 新功能盘点」
IT之家 8 月 31 日消息,苹果在 iOS 16 中对天气应用进行了一些改变,包括新的通知类型,并增加了一些信息,从湿度、温度到能见度全方位为你提供服务。此外,新版天气 App 中的许多新...
日期:09-18
华安证券章宏韬简历_华安证券董事长章宏韬:以文化“软实力”提升发展“高质量”
  证券公司董事长 谈文化建设与高质量发展   华安证券栉风沐雨走过了不平凡的30年,曾经辉煌、一度陨落到再次崛起,公司文化之路也经历了三个阶段和三个层次,形成了以使命...
日期:07-17