ML Drift：简化本地推理

TLDR : 一支来自Google和Meta的研究团队开发了ML Drift，这是一种解决方案，可以直接在设备上高效地执行人工智能，尽管GPU架构的多样性带来了挑战。ML Drift通过张量虚拟化等创新，显著提升了性能，并为移动和桌面平台提供了广泛的兼容性。

大多数人工智能模型都是在服务器上推理（即“执行”）的。然而，本地推理的发展，即直接在设备上推理，将有助于加速人工智能的传播，特别是通过减少服务器的限制并提高隐私性。

然而，在各种类型的GPU上部署生成式人工智能模型存在显著挑战：GPU架构的多样性，从专有解决方案到开放平台，使任务变得复杂，每种类型的GPU都有其自身的特性和限制。

面对日益增长的硬件依赖风险，在异构平台上优化性能成为确保生成模型流畅高效执行的必要条件。

为了应对这些挑战，由Google和Meta的研究团队，包括Jiuqiang Tang、Raman Sarokin和Ekaterina Ignasheva，开发了ML Drift，这是一种用于在各种平台上进行推理的解决方案。他们的专业知识在于优化GPU推理引擎，从而能够高效执行生成性人工智能的工作负载。ML Drift通过其克服跨GPU API开发相关技术障碍的能力脱颖而出，从而确保在移动和桌面平台上的广泛兼容性。

方法论和技术创新

ML Drift引入了多项技术创新，特别是张量虚拟化和优化的内存管理。张量虚拟化允许将GPU的逻辑索引与物理索引分离，从而在内存布局和内核优化方面提供了更大的灵活性。此外，内存管理和优化策略能够减少内存占用并提高性能。

结果和未来展望

ML Drift的性能评估显示，与现有的开源解决方案相比有显著改善，性能方面有实质性提升（支持的参数多10到100倍）。这些有前景的结果为未来的应用和改进铺平了道路，特别是高级量化技术的集成和对ML工作负载专用指令的探索。未来，团队计划扩展ML Drift的能力以适应更新的扩散模型和基于变换器的架构，同时探索与异构处理器的有效互操作性。

出版参考：arXiv:2505.00232v1

翻译自 ML Drift : faciliter l'inférence locale

Pour mieux comprendre

什么是张量虚拟化，为什么它对多样化GPU的推理很重要？

张量虚拟化将GPU的逻辑索引与物理索引分离，使得内存管理更加灵活。这对于优化在具有异构架构的多样化GPU上的推理性能至关重要，从而实现更好的资源利用。