ML Drift: تسهيل الاستدلال المحلي

ML Drift: تسهيل الاستدلال المحلي

TLDR : طور فريق من الباحثين في Google وMeta ML Drift، وهو حل لتنفيذ الذكاء الاصطناعي مباشرة على الجهاز، على الرغم من التحديات المرتبطة بتنوع بنى GPU. بفضل الابتكارات مثل الافتراضية للموترات، يحسن ML Drift الأداء بشكل كبير ويوفر توافقًا واسعًا عبر منصات الجوال والكمبيوتر.

يتم استدلال (أي "تنفيذ") معظم نماذج الذكاء الاصطناعي على الخادم. ومع ذلك، فإن تطوير الاستدلال المحلي، أي مباشرة على الجهاز، يمكن أن يسرّع نشر الذكاء الاصطناعي، خاصة من خلال تقليل القيود على الخوادم وتحسين الخصوصية.

ومع ذلك، فإن نشر نماذج الذكاء الاصطناعي التوليدية على أنواع مختلفة من GPU يمثل تحديات ملحوظة: تنوع بنى GPU، من الحلول المملوكة إلى المنصات المفتوحة، يجعل المهمة معقدة، حيث أن كل نوع من GPU له خصائصه وقيوده الخاصة. 

مواجهة خطر متزايد للاعتماد المادي، تصبح تحسين الأداء على منصات متنوعة ضرورة لضمان تنفيذ سلس وفعال لنماذج التوليد.

لمواجهة هذه التحديات، قام فريق من الباحثين في Google وMeta، يضم Jiuqiang Tang، Raman Sarokin، وEkaterina Ignasheva، بتطوير ML Drift، وهو حل مخصص للاستدلال على منصات متنوعة. تتمثل خبرتهم في تحسين محركات الاستدلال GPU، مما يسمح بتنفيذ فعال لأحمال عمل الذكاء الاصطناعي التوليدية. يتميز ML Drift بقدرته على تجاوز العقبات التقنية المرتبطة بتطوير واجهات برمجة التطبيقات بين GPU، مما يضمن توافقًا واسعًا عبر منصات الجوال والكمبيوتر المكتبي.

النهج المنهجي والابتكارات التقنية

يقدم ML Drift عدة ابتكارات تقنية، بما في ذلك الافتراضية للموترات وإدارة الذاكرة المحسنة. تسمح الافتراضية للموترات بفصل المؤشرات المنطقية عن المؤشرات الفيزيائية لـGPU، مما يوفر مرونة متزايدة في ترتيب الذاكرة وتحسين النوى. بالإضافة إلى ذلك، تسمح استراتيجيات إدارة وتحسين الذاكرة بتقليل بصمة الذاكرة وتحسين الأداء.

النتائج وآفاق المستقبل

تظهر تقييمات الأداء لـML Drift تحسينات كبيرة مقارنة بالحلول مفتوحة المصدر الحالية، مع مكاسب كبيرة من حيث الأداء (من 10 إلى 100 مرة أكثر من المعلمات المدعومة). هذه النتائج الواعدة تفتح الطريق لتطبيقات وتحسينات مستقبلية، بما في ذلك دمج تقنيات التكميم المتقدمة واستكشاف التعليمات المتخصصة لأحمال العمل ML. في المستقبل، يخطط الفريق لتوسيع قدرات ML Drift لتشمل نماذج الانتشار الأحدث والهياكل المستندة إلى المحولات، مع استكشاف التوافق الفعال مع المعالجات المتنوعة.

 

مرجع النشر: arXiv:2505.00232v1

 

لتحسين الفهم

<span dir="ltr">Tensor Virtualization</span> ما هي الافتراضية الرتوية ولماذا هي مهمة للتخمين على أجهزة <span dir="ltr">GPU</span> متنوعة؟

تقوم الافتراضية الرتوية بفصل المؤشرات المنطقية عن المؤشرات الفيزيائية لل<span dir="ltr">GPU</span> مما يسمح بمرونة أكبر في إدارة الذاكرة. هذا أمر حاسم لتحسين أداء التخمين على أجهزة <span dir="ltr">GPU</span> المتنوعة ذات البنى غير المتجانسة، مما يسمح باستغلال أفضل للموارد.