llmنُشر فـ 4 juin 20265 دقائق قراءة

كيفاش تخصص Nemotron 3.5 ASR على اللغة ديالك والنطق المحلي

نموذج ASR متعدد اللغات كيقدر تخصصو على اللهجة ديالك والمجال ديالك. شرح كامل من الصفر باش تحسن الدقة فـ 3 خطوات.

إيلا بغيتي تدير تطبيق فيه تحويل كلام لنص (ASR — Automatic Speech Recognition)، أكيد واجهتك المشاكل الكلاسيكية:

المشكلة الأولى: بغيتي تدعم لغات متعددة، فخاصك تشتغل مع 40 نموذج مختلف ولا 40 API من شركات مختلفة. كل واحد عندو تأخير مختلف وتسعير مختلف.
المشكلة الثانية: الـ real-time streaming بحاجة لسرعة، ولكن أغلب الأنظمة كتعيد معالجة نفس قطع الصوت مرات ومرات. النتيجة: تأخير أكتر وحسابات مهدورة.
المشكلة الثالثة: الـ output خام — بدون علامات ترقيم، بدون رؤوس كبيرة. خاصك نموذج ثاني باش يصحح هاد.
المشكلة الرابعة: كاين لغات كتتقلب وسط الجملة. مثلا في خدمة العملاء، الزبون كيتكلم إنجليزي وفرنسي فنفس المكالمة.

Nemotron 3.5 ASR بنيت باش تحل كل 4 مشاكل دي فنموذج واحد.

نموذج واحد، 40 لغة

نموذج واحد (600 مليون معامل فقط) كيقدر يتعامل مع:

الإنجليزية (الأمريكية والبريطانية)، الإسبانية، الألمانية، الفرنسية، الإيطالية، العربية، اليابانية، الكورية، البرتغالية، الروسية، الهندية، التركية، الفيتنامية، الهولندية، الأوكرانية، البولندية، الفنلندية، الماندرين، التشيكية، البلغارية، السلوفاكية، السويدية، الكرواتية، الرومانية، الإستونية، الدانماركية، المجرية، النرويجية، العبرية، اليونانية، الليتوانية، اللاتفية، المالطية، السلوفينية، والتايلاندية.

ماشي غير تبديل النماذج. نموذج واحد يكفيك.

Streaming حقيقي، بدون تأخير

النموذج مبني على Cache-Aware FastConformer encoder (تقنية كتخزن النتائج السابقة باش ماتحسبش نفس الحاجة مرتين). الأنظمة التقليدية كتعيد معالجة نفس قطع الصوت كل مرة. هاد النموذج بدل ذلك كيحفظ الحالة الداخلية ويعيد استعمالها:

كل frame من الصوت كيتعالج مرة واحدة فقط
بدون تأخير (latency منخفضة بزاف)
بدون نقصان فالدقة

علامات الترقيم والرؤوس الكبيرة، مدمجة فالنموذج

الـ output جاهز للاستعمال فالإنتاج: كاما، نقط، علامات استفهام، حروف كبيرة — كلشي صحيح من أول مرة. ماخاصكش نموذج ثاني.

تحديد اللغة: أنتا اللي تختار

عندك جوج خيارات:

قول للنموذج اللغة: <bdi>target_lang</bdi>=<bdi>es-ES</bdi> (إيلا عرفتي اللغة بالفعل) — أدق نتيجة
خليه يكتشفها بروحو: <bdi>target_lang</bdi>=<bdi>auto</bdi> (إيلا ما عرفتيش) — النموذج كيقول أنو اللغة شنو

البنية الداخلية

النموذج عندو جزأين:

Encoder: 24 طبقة FastConformer، كل واحد كيحفظ الحالة من الـ frames السابقة
Decoder: RNNT (نوع من الشبكات العصبية كتطلع النص frame by frame، مثالي للـ streaming)

فوق هاد الشي، النموذج كيستعمل language conditioning — إشارة لغة كتجي مع الصوت، فتخليه يتخصص على لغة معينة.

كيفاش تخصصو (Fine-tuning) على لغتك ولا لهجتك

النموذج قوي من الأول، ولكن بعض اللغات عندها بيانات أقل من غيرها. إيلا عندك:

لهجة محددة (مثلا العربية المغربية بدل الفصحى)
مجال متخصص (طبي، قانوني، تقني)
نطق معين (هاتف، مكتب مزدحم، سيارة)
لغة جديدة ما فيهاش فالنموذج

تقدر تحسن الدقة بـ few hours من الصوت المتخصص.

مثال حقيقي: اليونانية والبلغارية

الفريق أخذ النموذج الأساسي وخصصوه على لغتين أوروبيتين (اليونانية والبلغارية) — لغات كانت عندها أخطاء أكتر فالنموذج الأساسي. النتائج:

البلغارية: خطأ الكلمة (WER) انقسم لنصين (من حوالي 60% لـ 25%)
اليونانية: تحسن كبير كذلك

الخطوات الـ 5 ديال التخصيص:

جهز البيانات: صوت من المجال ديالك، منظم فـ tarred shards (ملفات مضغوطة)
خصص النموذج: ابدا من النموذج الأساسي، استعمل نفس البنية (FastConformer-RNNT)
اختبر على بيانات جديدة: استعمل data ما شفها النموذج قبل
أضيف بيانات لو كانت ضعيفة: لغات معينة تحتاج ساعات أكتر
صدّر واستعمل: النموذج الجديد كيدخل مباشرة فنفس الـ deployment pipeline

التفاصيل العملية

تحضير البيانات

كل clip خاص يكون عندو language tag (<bdi>target_lang</bdi>) — هاد الشي هو اللي كيخليه ينجح. إيلا الـ tag غلط، النتائج غادي تكون سيئة.

النصوص خاصهم يكونو مثل ما يطلعهم النموذج: علامات ترقيم، حروف كبيرة.

Training

تدريب عادي على نموذج RNNT streaming:

GPU واحد باش تجرب بسرعة
Multi-GPU إيلا بغيتي تدريب أفضل
Epoch واحد يقدر يكون دقايق فقط على dataset صغير

التقييم

الأهم: اختبر على نفس شروط الـ deployment. إيلا غادي تستعمل <bdi>att_context_size</bdi>=[56,0] (80 millisecond chunk، 0 lookahead)، اختبر على نفس الشروط دي. ماتستعملش أرقام من بيانات التدريب — تلك أرقام كتخدع.

النتائج

ملي ضافو بيانات أكتر (من 290 ساعة لـ 2,300 ساعة):

البلغارية: نزلات لـ high-20s (من 60%+)
اللغات الثانية: تحسن كذلك، ولكن مش متساوي

الدرس: أكتر بيانات = أحسن نتائج، لكن مش كل لغة بنفس الطريقة. قيس بدل ما تفترض.

نصائح مهمة

Fine-tuning كيعطي نتايج ضخمة فاللغات الضعيفة — أكبر الكسب جاي من حيث كان النموذج الأساسي سيء
اختبر على deployment latency: بيانات التدريب كتخدع. اختبر على data جديدة بـ 0 lookahead
الـ language tag خاص يكون صحيح: النموذج كيعتمد عليه بزاف
حافظ على اللغات الثانية: إيلا كنتي كتخصص على لغة وحدة، خلط شوية بيانات من اللغات الأخرى باش ماتنقصش دقتهم
البيانات المتخصصة أهم من الكمية: ساعة من صوت طبي أحسن من 10 ساعات من الراديو

الاستعمالات الحقيقية

Voice agents سريعة: ASR سريع = LLM سريع = TTS سريع = conversation طبيعي
Meeting captions متعددة اللغات: مشارك إنجليزي، مشارك فرنسي، captions real-time لكل واحد
Call center analytics عالمي: backend واحد بدل 40 vendor
Live streaming مع ترجمة: captions real-time + translation
On-device transcription: Jetson hardware، privacy محفوظة

شنو كيعني هاد الشي ليك؟

الشركات المغربية اللي كتشتغل مع صوت — بحال call centers، خدمة العملاء، مكاتب قانونية، عيادات طبية — تقدر الآن تبني نظام transcription واحد بدل ما تشتغل مع 3 ولا 4 providers مختلفين. حتى لو كانت عندها عملاء كيتكلمو العربية المغربية ولا الفرنسية بنطق محلي، تقدر تخصص النموذج على بيانات ديالهم بسهولة — ساعات من الصوت المتخصص كيوفر ألاف الدولارات من الـ licensing سنويا. والمطورين المغاربة كيقدرو يبنيو voice agents احترافية على Nemotron، وتصديرها للسوق الأوروبي — مجال الـ voice AI ولا طالب عليه بزاف، خاصة فالـ remote. هاد نموذج مفتوح المصدر، فتقدر تجرب بدون قيود.