您的位置:首页 > 互联网

阿里云发布全栈AI负载高可用 与用户共建AI时代云上IT新治理_阿里云 alb

发布时间:2024-12-27 18:43:37  来源:互联网     背景:

12 月 17 日上午,在中国信息通信研究院主办的 2024 第五届“GOLF+IT新治理领导力论坛”主论坛上,阿里云重磅发布了全栈AI负载高可用架构,以满足AI大模型企业级应用在大规模参数量、复杂结构和高性能算力背景下,对云服务处理能力可扩展性、服务连续性、服务质量和故障快速恢复的需求。

以为生成式AI 打造持续的卓越用户体验为目的,阿里云全栈AI负载高可用架构可达到GPU故障预测准确率92%,千卡规模集群连续训练有效时长大于99%,秒级模型自动保存、分钟级故障恢复;每分钟 10000 个pod扩展,分钟级自动扩容;核心模型服务99.99%的API SLA,模型应用服务全链路可观测等重要的AI业务高可用目标,在大规模数据处理和训推场景下,实现了对Gen AI应用业务连续性、响应速度、稳定性和安全性的全面保障。

在论坛上, 2025 年中国数字化治理领域最新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估最高等级。

阿里云全栈AI负载高可用架构正式发布

在AI算力需求逐渐超越通用需求的今天,以GenAI为代表的应用场景和技术倍增,云上企业需要处理和存储的数据量呈指数增长,AI驱动的应用在高负载情况下,对保障业务的连续性、响应速度、稳定性和安全性均提出了更高要求。

为此,阿里云在升级云平台自身的技术服务能力的同时,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等AI负载高可用全面融入云平台架构设计,围绕大模型训练微调、推理、多模态数据处理等环节,构建具备“高可用模型训练、灵活弹性的推理资源、数据高可靠”特性的全栈AI负载高可用架构,实现了从通用负载向AI负载的可用性演进,为客户AI业务构建提供稳定的业务服务和出色的用户体验。

在高可用模型训练方面,阿里云AI基础设施高可用能力融入云服务整体架构设计,基于AI算法的故障预测,实现训推环节的性能瓶颈分析和潜在故障分析,GPU故障预测准确率达92%,同时将异常预测接入自愈链路,训练恢复自愈率超90%、千卡规模集群连续训练有效时长大于99%,实现秒级模型自动保存、分钟级故障恢复;同时,CPFS 高性能存储集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加频繁的 Checkpoint 读写,能够更好地防止数据丢失,并提升训练的稳定性和可靠性。在网络层面,阿里云自研的高性能网络,业界首创双平面的高可用网络架构,网络Link和设备中断,训练任务不中断。

在推理资源方面,阿里云容器计算服务ACS的弹性能力实现每分钟可以进行 10000 个pod扩展,分钟级自动扩容;PAI-EAS模型在线服务,适用于实时推理、近实时异步推理等多种AI推理场景,能感知每个请求的执行进度,做到更公平的任务调度,提高扩缩容效率。同时,阿里云将跨区域的主动式重路由技术运用到数据中心间的通信,从而在跨数据中心推理网络上,达到跨域带宽业界最高的 99.995% SLA,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。

对于在实时语音交互、实时AI搜索等高性能场景有推理需求的客户,阿里云百炼模型服务平台,基于预训练模型为用户提供模型推理与应用构建托管服务,核心模型服务API达到 99.99% SLA,高性能场景核心用户用例中的首包延时小于 300 毫秒,能够有效解决应用开发、模型调用等过程中的跨区域TPM限制、高并发需求下API响应变慢等问题,提升Gen AI应用推理与构建时的用户体验。

在数据高可靠方面,阿里云数据存储与数据库服务面向不同计算引擎、多种AI 框架进行了深度集成,形成承载PB级甚至EB级大规模数据统一的存储底座,同城冗余容灾,高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作保障数据服务高可靠,向上支撑面向单AZ, 双AZ, 三AZ及跨Region的高可用服务,跨Region AI数据的就近读写和负载均衡,满足AI数据多活的强一致性,AI数据冷备、热备、故障自动切换,解决AI数据故障风险。

阿里云 iaas paas saas

AI时代与用户共建云上的IT新治理

AI时代的浪潮中,企业对于高可用架构的需求不仅仅停留在节点的稳定性上,而是在更高的层面追求智能化运营。阿里云全栈AI负载的高可用架构已为企业奠定了坚实的技术基础,而进一步的挑战则在于如何提升云上系统的运维管理与治理能力。通过与用户携手,阿里云致力于在云环境中构建一个AI-Native的智能化、自动化和可持续的IT治理体系,为企业的创新之路保驾护航。

阿里云根据多年服务客户的经验总结为一系列的方法论和架构设计原则,推出了阿里云卓越架构Well-Architeched Framework,意在帮助企业在云上构建一个安全、稳定、高效的应用环境。面向AI技术融入带来的更复杂更大规模的,根据云计算的弹性、实时交付、自助化等特点,阿里云卓越架构进一步升级了用云企业运维管理和治理规则基线的最佳实践,依靠Well-Architeched云卓越架构来学习-度量-优化,落地治理潜在的风险隐患,从安全、稳定、效率、成本、性能五大支柱全面提升系统整体韧性和运营效率。

idaas阿里云

阿里云开放平台负责人何登成表示,“在云上构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保提供的云服务可用性符合或超过阿里云服务等级协议;用户需要根据业务需求,选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,来确保云上应用的可靠性。”

小米13.5发布时间

周鸿祎谈互联网生态

尤其在AI迅猛发展的今天,企业更应让业务系统利用现代云平台的基础设施达到高可用,总结成三个"面向":面向失败的设计架构,面向精细的运维管控,面向风险的应急快恢。同时,用户可以在建设持续稳定的云环境过程中,面向AI并结合AI,通过良好的AI模型训推架构设计、AI数据资产处理与存储、智能诊断与风险预测等手段,进一步提升系统可用性、可靠性、可持续性。

阿里云获信通院企业用云治理能力成熟度评估最高等级

据信通院发布的《企业用云治理能力成熟度分级要求》,企业用云治理能力成熟度评估共分为L1-L5 共 5 个等级,分别为L1 基础级、L2 应用级、L3 优秀级、L4 先进级、L5 卓越级。该分级要求不仅适用于对云服务使用方用云治理能力成熟度进行评估,也适用于对云服务提供商云服务治理产品、技术能力成熟度进行评估。阿里云测评结果为L4+,是目前阶段云服务提供商实际获得的最高等级。

此前,阿里云企业用云治理能力曾两度获得信通院评测认可,包括 2022 年“企业云治理能力成熟度模型”获信通院科技治理领域年度明星解决方案及产品; 2023 年“云治理中心”获信通院科技治理领域年度明星解决方案。

阿里云 alb

今年,针对企业用云发展路径、企业云治理发展趋势分析与洞察,阿里云联合埃森哲发布《云治理企业成熟度发展 2024 年度报告》(https://developer.aliyun.com/ebook/8419),报告调研取样来自 400 多家企业客户,横跨互联网、金融、新零售、交通等多个行业,旨在帮助用户理解云治理概念、企业用云实践的现状及变迁趋势,并基于云治理框架的五大分类(即稳定性、安全合规、成本效益、高效性能、卓越运营),报告作为企业云上旅程的实践样本,为面向AI时代做好IT新治理和云上架构优化提供更多的参考与决策依据。

(完)


返回网站首页

本文评论
《变形金刚》苦战《阴间大法师》_变形金刚间谍
《变形金刚:起源》北美开画成绩低于预期,点映与周五场仅录得956万美元,距离燃爆全场相去甚远。这部动画片之前预计能取得至少3000万美元首周票房,现在看来只有2630万。华纳的《...
日期:09-24
Ollama支持多模态模型使用_多模态建模
12月14日 消息:Ollama最新版本支持多模态模型使用了,只需输入“ollama run llava”并运行即可。在下载llava-7B模型后,只需拖放图像输入问题即可。Ollama是一款命令行工具,可以...
日期:12-14
爱彼迎 创始人「爱彼迎联合创始人加入特斯拉董事会」
  Airbnb联合创始人加入特斯拉董事会  讯 北京时间9月29日消息,特斯拉发布消息称,Airbnb(爱彼迎)联合创始人约瑟夫·格比亚(Joseph Gebbia)已经加入公司董事会,就在几个月前格...
日期:10-04
马斯克第12个孩子出生:孩子母亲为Neuralink女下属_马斯克 六个孩子
6月22日 消息:科技巨头埃隆·马斯克再次扩大了他的家庭,成为了第12个孩子的父亲。据了解,今年早些时候,马斯克与Neuralink公司的员工希冯·齐里斯共同迎来了他们的孩子,这是马斯...
日期:06-22
Adobe发布视频超分辨率项目VideoGigaGAN  支持8倍视频放大_超高分辨率视频
4月23日 消息:Adobe 近期推出了一个名为 VideoGigaGAN 的视频超分辨率项目,该项目在视频放大技术方面取得了显著的进展。VideoGigaGAN 能够将视频放大至原始分辨率的8倍,同时...
日期:04-23
华为matepad原装手写笔_华为MatePad官方自曝,支持手写笔
  11月19日消息 华为官方刚刚发布了一则MatePad的宣传视频,视频显示MatePad将支持手写笔;另外昨日官方爆料称MatePad支持多屏协同功能。   此前,型号为MRX-W09、MRX-W19...
日期:01-08
淘宝一键试衣浏览器插件heybeauty 可AI虚拟试穿网店任何衣服_淘宝在线试衣服
5月13日 消息:HeyBeauty,一款由AI技术驱动的创新平台,致力于彻底改变您的时尚体验。该应用程序利用尖端的人工智能技术,提供了一个虚拟更衣室,使用户能够在数字环境中试穿衣物,模...
日期:05-13
比亚迪高管“喊话”马斯克:我们现在已经很强,今年你将遇到智驾、车型的“严重挑战”
1月23日消息,比亚迪腾势销售事业部总经理赵长江凌晨在微博发文,“回一下半个月前彼岸的网络回复”。苏宁以旧换新购机专享券赵长江说,这家公司自称“汽车软件公司”,就好像“我...
日期:01-26
联想控股原董事长曾茂朝因病去世:享年92岁_联想控股 董事长
快科技3月6日消息,据中国计算机学会”官微发文,CCF终身会员、名誉理事、第四届第五届理事会常务副理事长、第六届第七届理事会副理事长,著名计算机专家、中国科学院计算技术研...
日期:03-06
玖富数科集团携手华为云发布海外金融SaaS开放平台,共拓海外金融市场
  在国内市场规模有限、人口红利下降,竞争激烈加大的大背景下,中国本土金融科技企业开始在海外寻找业务增长点,一方面与海外当地的移动支付机构寻求全球合作机会,另一方面寻...
日期:10-22
游戏带货,要提提速了_游戏带服提成
声明:本文来自微信公众号“游戏价值论”(ID:gamewower),作者:李亚捷,授权转载发布。上个月,《英雄联盟》和《穿越火线》开启了直播带货首秀,GMV(商品交易总额)均超千万,相关话题引发了...
日期:07-17
消息称上海一蔚来试驾车冲进人行道致一死一伤_蔚来上海车展辱骂
2月14日消息,据海报新闻消息,2月3日晚间,上海市徐汇区港汇广场附近发生一起交通事故,一辆蔚来试驾汽车冲上人行道,致行人一死一伤。报道称,该试驾车应属于“蔚来空间港汇恒隆广场...
日期:02-15
国际顶级赛事直播“黑科技”初次亮相村BA
   6 月 10 日,在贵州安顺小寨村“快手村BA”乡村篮球赛现场,国际顶 级赛事直播黑科技“子弹时间”首 次应用于村BA比赛中。  当日,为助力全面推进乡村振兴、加快建设农业...
日期:06-13
三星gts7572怎么解锁「三星gts7572」
三星GTS7572是一款小而精致的安卓智能手机,由三星电子公司于2013年发布。其尺寸为121.5 x 63.1 x 10.57 mm,重量为120克。它配备了4英寸TFT触摸屏,分辨率为480 x 800像素,可提供...
日期:06-03
国内乘用车量产之最!蔚来150kWh超长续航电池包即将上线:可续航1055km_蔚来100kwh电池真实续航
快科技3月5日消息,蔚来今日发布2023年四季度及全年财报。财报显示,蔚来2023年全年营收556.2亿元,同比增长12.9%,再创历史新高。蔚来表示,今年将再建1000座换电站,第四代换电站将开...
日期:03-06
小鹏汽车港股开涨近4% 阿里巴巴开涨0.42%_小鹏汽车港股上市时间
查看最新行情   讯 8月5日上午消息,香港恒生指数开盘涨0.54%,报20283.59点;恒生科技指数涨1.1%。小鹏汽车港股开涨近4%,蔚来涨超3%。阿里巴巴开涨0.42%,此...
日期:08-06
寒潮预警!大风降温预报图冻成紫蓝一片:局地降温幅度达18度「气象台发布寒潮蓝色预警」
即将进入12月,天气也是一天比一天凉了,这不,今早06:00,中央气象台继续发布了寒潮黄色预警。11月27日至30日,寒潮天气将自西向东影响我国大部,造成剧烈降温、大风、沙尘和大范围雨...
日期:12-04
终极之战完美落幕,OPPO小游戏高校创意制作大赛倾力培养游戏人才
  12月20日,由OPPO互动娱乐部联合游戏引擎和知名游戏制作人发起的“生而有戏、无限创意”——OPPO小游戏高校创意制作大赛总决赛于深圳圆满闭幕。经过激烈比拼,最终“发际...
日期:06-05
遏制网上就业歧视 监管要更具针对性「坚决防止就业中的什么歧视」
  秋实  网络招聘信息方便快捷、唾手可得,但也难免存在陷阱,一不小心就会掉进“坑”里。最近,深圳的袁先生在某招聘网站求职遭辱骂“个子小,长得丑,跟贼一样”一事,引发网友热...
日期:08-27
spacex星舰发射最新消息「SpaceX第六次星舰试飞推迟至11月20日:窗口期有30分钟」
快科技11月16日消息,据媒体报道,原定于北京时间11月19日开启的SpaceX第六次星舰试飞时间推迟到了11月20日凌晨6:00(当地时间19日16:00),窗口期有30分钟。三星宣布将于1月14日举行...
日期:11-17