AWS在AI竞争中加码基础设施,SageMaker平台迎来重大升级
全新升级:SageMaker助力企业AI开发再进化
亚马逊网络服务(AWS)近日宣布对其机器学习与 AI 平台 SageMaker 进行重大升级,全面优化用户体验并增强其在人工智能基础设施领域的市场地位。
此次更新引入了多项创新功能,包括:
- 新型可观察性工具,帮助用户精准定位模型性能下降原因;
- 本地集成开发环境(IDE)连接功能,实现项目无缝部署;
- GPU 集群性能管理,提升资源调度效率。
统一平台,多维升级
自2024年起,SageMaker 已转型为一个集多种机器学习工具于一体的统一数据源集成中心。本次更新的核心目标在于赋予开发者更强的控制能力,并更清晰地洞察模型运行状态。
用户驱动创新:来自真实需求的功能设计
AWS SageMaker 总经理 Ankur Mehrotra 表示,此次新增功能的设计灵感主要来源于用户的实际反馈。他指出: "很多生成式 AI 模型开发者在出现问题时难以迅速定位故障层级。"
为解决这一痛点,平台推出了SageMaker HyperPod 可观察性功能,支持工程师深入检查计算层、网络层等各层面状况,并在性能异常时实时报警,所有指标均可在仪表盘上直观展示。
本地编码也能轻松上云
新增的本地 IDE 连接功能,使得开发者可以在本地编写 AI 项目代码,并一键部署至 SageMaker 平台。Mehrotra 强调: "过去,本地编写的模型只能本地运行,扩展性受限。如今,借助安全远程执行功能,开发者可在本地或云端灵活切换任务环境。"
HyperPod:智能调度 GPU 资源,降低成本压力
AWS 在 2023 年 12 月首次推出 SageMaker HyperPod,专为企业训练大规模 AI 模型提供高效服务器集群管理。该功能可根据使用需求动态调度 GPU 资源,有效平衡成本与性能。
AWS 表示,客户普遍期望在推理任务中也实现类似功能。考虑到推理通常发生在白天,而训练任务多安排在非高峰时段,这一弹性调度机制将极大提升开发者的灵活性。
持续深耕 AI 基础设施,打造企业级解决方案
尽管 AWS 在基础模型领域尚未如谷歌或微软那般引人注目,但其始终致力于构建坚实的人工智能底层架构,赋能企业开发定制化 AI 应用。
除了不断进化的 SageMaker,AWS 还推出了 Bedrock 平台,专为构建 AI 应用与代理设计。随着 SageMaker 的持续迭代,AWS 在企业 AI 领域的综合竞争力日益凸显。