نماذج ذكية جديدة من علي بابا لاستنساخ الأصوات وتوليدها بدقة عالية

شركة علي بابا تطلق نماذج Qwen3 لتعزيز تقنيات الصوت المولد بالذكاء الاصطناعي

  • تاريخ النشر: منذ 14 ساعة زمن القراءة: دقيقتين قراءة
نماذج ذكية جديدة من علي بابا لاستنساخ الأصوات وتوليدها بدقة عالية

أعلنت شركة علي بابا كلاود، الذراع السحابية لمجموعة علي بابا الصينية، عن إطلاق نموذجين جديدين للذكاء الاصطناعي ضمن سلسلة Qwen3، واللذان يركزان على تقنيات توليد الأصوات البشرية واستنساخها اعتماداً على أوامر نصية.

شركة علي بابا تطلق نماذج Qwen3 لتعزيز تقنيات الصوت المولد بالذكاء الاصطناعي

وبحسب ما ذكرته تقارير تقنية، فإن هذه الخطوة تعكس طموح الشركة لتعزيز حضورها في سوق تقنيات الصوت المتقدمة، ودعم صناعة المحتوى الاحترافي.

والنموذج الأول، الذي يحمل اسم Qwen3-TTS-VD-Flash، صمم خصيصاً لتوليد أصوات واقعية وقابلة للتخصيص بدرجة عالية.

ويتيح هذا النموذج للمستخدمين إنشاء أصوات رقمية استناداً إلى أوصاف تفصيلية، تشمل: الحالة العاطفية، ونبرة الصوت، وسرعة الإلقاء، إضافة إلى إمكانية تحديد خصائص أخرى، مثل: العمر، ونوع الصوت، والأسلوب العام للأداء.

ويوفر هذا المستوى من التحكم مرونة كبيرة لصناع المحتوى والمطورين الراغبين في إنتاج مواد صوتية متقنة تلائم سياقات استخدام متنوعة.

ويتفوق أداء هذا النموذج على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts، سواء من حيث جودة الصوت أو دقة الاستجابة للأوامر النصية.

وأشارت التقارير إلى أنه بالنسبة للنموذج الثاني Qwen3-TTS-VC-Flash، فهو يركز على تقنيات استنساخ الأصوات، حيث يمكنه نسخ صوت شخص حقيقي بالاعتماد على تسجيل قصير لا تتجاوز مدته 3 ثوان فقط.

وبعد ذلك، يستطيع النموذج إعادة إنتاج الصوت ذاته بلغات متعددة تصل إلى 10 لغات مختلفة، مع الحفاظ على الخصائص الصوتية الأساسية، مثل النبرة والإيقاع.

وأكدت علي بابا أن هذا النموذج يحقق معدل أخطاء أقل، مقارنة بعدد من المنافسين البارزين في هذا المجال، مثل ElevenLabs وMiniMax.

ولفتت التقارير إلى أن النماذج الجديدة تتميز بقدرات إضافية متقدمة، من بينها التعامل مع نصوص معقدة، وتقليد أصوات غير بشرية مثل أصوات الحيوانات، إلى جانب إمكانية استخراج الأصوات من تسجيلات موجودة، وإعادة توظيفها في سياقات مختلفة.

وتتوافر هذه الأدوات عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، ما يسهل دمجها في التطبيقات والمنصات المختلفة، إلى جانب إتاحة نسخ تجريبية عبر منصة Hugging Face للمطورين والباحثين.

جدير بالذكر أن هذا الإطلاق يأتي في ظل منافسة محتدمة تشهدها سوق تقنيات الصوت المعتمدة على الذكاء الاصطناعي، مدفوعة بارتفاع الطلب من قطاعات حيوية، مثل الإعلانات، والألعاب، وصناعة الفيديو، والتعليم الإلكتروني.

ومن المتوقع أن تفتح هذه النماذج آفاقاً واسعة لاستخدامات عملية، والتي تشمل: الدبلجة متعددة اللغات، وإنتاج الإعلانات الصوتية، وتصميم شخصيات صوتية للألعاب، ودعم مراكز الاتصال.