以下文章来源于阿里巴巴中间件 ,作者易立
Aliware阿里巴巴中间件官方账号
本文根据作者易立在 9 月 20 日由中国计算机学会组织的 CCF TF 会议演讲整理。
背景
Aliware
阿里云容器产品家族
FinOps 与云原生
Kubernetes 实现基础设施弹性与应用弹性
Aliware
应用水平伸缩面临的挑战与解决之道
AHPA
Aliware
核心办法
实验结果
AHPA 基于预测的自动弹性
分布式系统中资源调度的复杂性挑战
Aliware
Koordinator-非侵入扩展 Kubernetes 支持任务混部
差异化 SLO
Spark 混部效果展示
QoS 感知调度、重调度
在 ACK 中,通过 CPU 拓扑感知调度,在内存密集型任务场景,相比于社区方案有 20%~40%的性能优化,在 AI 分布式训练任务,调度器针可以自动选择最佳多 GPU 卡间互联拓扑,提供最大通信带宽,提升计算效率。对 ResNet、VGG 等典型 CV 类模型训练有 1~3 倍加速。
数据密集型应用在云原生环境上的挑战
Aliware
Fluid-数据编排的核心方法
Fluid-云原生数据编排与加速
Fluid-加速 AI 训练效果
在微博测试场景中,Fluid 针对海量小文件缓存优化,可以大大降低 HDFS 压力,训练速度提升 9 倍。
云原生 FinOps 成本管理,助力企业高效用云
Aliware