أداة جديدة تُتيح تحويل النص إلى موسيقى
أصدرت “ستابيليتي إيه آي” (Stability AI)، وهي الشركة الناشئة التي تقف وراء أداة “ستايبل ديفيوجن” (Stable Diffusion)، نموذجًا مفتوح المصدر للذكاء الاصطناعي لتوليد الأصوات والمقطوعات الموسيقية التي تزعم أنها تمّ تدريبها حصريًا على تسجيلات خالية من حقوق الملكية.
يُدعى النموذج التوليدي “ستايبل أوديو أوبن” (Stable Audio Open)، ويأخذ وصفًا نصيًا (على سبيل المثال، “إيقاع روك يُعزف في استوديو، وجلسة عزف طبول على مجموعة أدوات موسيقية صوتية”)، ويخرج تسجيلًا يصل طوله إلى 47 ثانية. تم تدريب النموذج باستخدام نحو 486 ألف عيّنة من مكتبات الموسيقى المجانية “FreeSound” و “Free Music Archive”.
تقول “ستابيليتي إيه آي” إن النموذج يمكن استخدامه لإنشاء إيقاعات الطبول، وارتجالات الآلات، والضوضاء المحيطة، و”عناصر الإنتاج” لمقاطع الفيديو والأفلام والبرامج التلفزيونية، وكذلك “لتعديل” الأغاني الموجودة أو تطبيق أسلوب أغنية (على سبيل المثال: الجاز الناعم) على أخرى.
وكتبت “ستابيليتي إيه آي” في منشور على مدونتها: “ميزةٌ رئيسية لهذا الإصدار مفتوح المصدر هي أنه يمكن للمستخدمين ضبط النموذج بدقة على بيانات الصوت المخصّصة لهم. على سبيل المثال، يمكن لعازف الطبول أن يضبط النموذج بدقة على عيّنات من تسجيلات الطبول الخاصة بهم لإنشاء إيقاعات جديدة”.
لكن “ستايبل أوديو أوبن” لها حدود، إذ لا يمكنها إنتاج أغان كاملة أو ألحان أو غناء بمستوى جيّد. تقول “ستابيليتي إيه آي” إن الأداة ليست الأمثل لذلك، وتقترح أن يختار المستخدمون الذين يبحثون عن تلك القدرات خدمة “ستايبل أوديو” المتميّزة الخاصة بالشركة.
كذلك لا يمكن استخدام “ستايبل أوديو أوبن” تجاريًا حيث تمنع شروط الخدمة ذلك، بالإضافة إلى أن البرنامج لا يعمل بشكل جيّد عبر الأساليب والموروثات الموسيقية المختلفة أو مع أوصاف بلغات أخرى غير الإنكليزية؛ وهي تحيّزات تلقي “ستابيليتي إيه آي” باللوم فيها على بيانات التدريب.
وكتبت “ستابيليتي إيه آي” في وصف للنموذج: “مصدر البيانات من المحتمل أن يفتقر إلى التنوع، ولم يتم تمثيل جميع الثقافات بشكل متساوٍ في مجموعة البيانات. ستعكس العينات التي تم إنشاؤها من النموذج التحيّزات الموجودة في بيانات التدريب”.