目录
大多数人工智能模型都是在服务器上推理(即“执行”)的。然而,本地推理的发展,即直接在设备上推理,将有助于加速人工智能的传播,特别是通过减少服务器的限制并提高隐私性。
然而,在各种类型的GPU上部署生成式人工智能模型存在显著挑战:GPU架构的多样性,从专有解决方案到开放平台,使任务变得复杂,每种类型的GPU都有其自身的特性和限制。
面对日益增长的硬件依赖风险,在异构平台上优化性能成为确保生成模型流畅高效执行的必要条件。
为了应对这些挑战,由Google和Meta的研究团队,包括Jiuqiang Tang、Raman Sarokin和Ekaterina Ignasheva,开发了ML Drift,这是一种用于在各种平台上进行推理的解决方案。他们的专业知识在于优化GPU推理引擎,从而能够高效执行生成性人工智能的工作负载。ML Drift通过其克服跨GPU API开发相关技术障碍的能力脱颖而出,从而确保在移动和桌面平台上的广泛兼容性。
方法论和技术创新
ML Drift引入了多项技术创新,特别是张量虚拟化和优化的内存管理。张量虚拟化允许将GPU的逻辑索引与物理索引分离,从而在内存布局和内核优化方面提供了更大的灵活性。此外,内存管理和优化策略能够减少内存占用并提高性能。
结果和未来展望
ML Drift的性能评估显示,与现有的开源解决方案相比有显著改善,性能方面有实质性提升(支持的参数多10到100倍)。这些有前景的结果为未来的应用和改进铺平了道路,特别是高级量化技术的集成和对ML工作负载专用指令的探索。未来,团队计划扩展ML Drift的能力以适应更新的扩散模型和基于变换器的架构,同时探索与异构处理器的有效互操作性。
出版参考:arXiv:2505.00232v1
Pour mieux comprendre
什么是张量虚拟化,为什么它对多样化GPU的推理很重要?
张量虚拟化将GPU的逻辑索引与物理索引分离,使得内存管理更加灵活。这对于优化在具有异构架构的多样化GPU上的推理性能至关重要,从而实现更好的资源利用。