يحتاج نموذج الذكاء الاصطناعي لاستنساخ الصوت الخاص بـ OpenAI إلى عينة مدتها 15 ثانية فقط حتى يعمل

تقدم OpenAI وصولاً محدودًا إلى منصة تحويل النص إلى صوت التي طورتها والتي تسمى Voice Engine، والتي يمكنها إنشاء صوت اصطناعي يعتمد على مقطع مدته 15 ثانية من صوت شخص ما. يمكن للصوت الناتج عن الذكاء الاصطناعي قراءة المطالبات النصية عند الطلب بنفس لغة المتحدث أو بعدد من اللغات الأخرى. “تساعد عمليات النشر صغيرة الحجم هذه في إثراء نهجنا وإجراءاتنا الوقائية وتفكيرنا حول كيفية استخدام محرك الصوت لتحقيق الصالح العام عبر مختلف الصناعات،” OpenAI قال في منشور مدونته.

تشمل الشركات التي تتمتع بإمكانية الوصول شركة تكنولوجيا التعليم Age of Learning، ومنصة سرد القصص المرئية HeyGen، وصانع البرامج الصحية في الخطوط الأمامية Dimagi، ومنشئ تطبيقات اتصالات الذكاء الاصطناعي Livox، والنظام الصحي Lifespan.

في هذه العينات التي نشرتها OpenAI، يمكنك سماع ما عصر التعلم لقد تم التعامل مع التكنولوجيا لإنشاء محتوى صوتي مكتوب مسبقًا، بالإضافة إلى قراءة “الردود الشخصية في الوقت الفعلي” للطلاب المكتوبة بواسطة GPT-4.

أولاً: الصوت المرجعي باللغة الإنجليزية:

وهنا ثلاثة مقاطع صوتية تم إنشاؤها بواسطة الذكاء الاصطناعي بناءً على تلك العينة،

قالت OpenAI إنها بدأت في تطوير Voice Engine في أواخر عام 2022 وأن التكنولوجيا قامت بالفعل بتشغيل الأصوات المعدة مسبقًا لواجهة برمجة تطبيقات تحويل النص إلى كلام وميزة القراءة بصوت عالٍ في ChatGPT. في مقابلة مع تك كرانشوقال جيف هاريس، عضو فريق منتج OpenAI لـ Voice Engine، إن النموذج تم تدريبه على “مزيج من البيانات المرخصة والمتاحة للجمهور”. أخبرت OpenAI المنشور أن النموذج سيكون متاحًا لحوالي 10 مطورين فقط.

يعد إنشاء تحويل النص إلى الصوت باستخدام الذكاء الاصطناعي أحد مجالات الذكاء الاصطناعي التوليدي الذي يستمر في التطور. في حين أن معظمها يركز على أصوات الآلات أو الأصوات الطبيعية، فقد ركز عدد أقل على توليد الصوت، ويرجع ذلك جزئيًا إلى الأسئلة التي استشهد بها OpenAI. تشمل بعض الأسماء في هذا المجال شركات مثل Podcastle وElevenLabs، التي توفر تكنولوجيا وأدوات استنساخ الصوت بالذكاء الاصطناعي فيرجكاست استكشاف العام الماضي.

READ يقول بنك جولدمان ساكس إن صناديق التحوط تخلصت من الأسهم الصينية في آب (أغسطس)

وفقًا لـ OpenAI، وافق شركاؤها على الالتزام بسياسات الاستخدام الخاصة بها والتي تنص على أنهم لن يستخدموا Voice Generation لانتحال شخصيات أشخاص أو مؤسسات دون موافقتهم. كما يتطلب أيضًا من الشركاء الحصول على “موافقة صريحة ومستنيرة” من المتحدث الأصلي، وليس بناء طرق للمستخدمين الفرديين لإنشاء أصواتهم الخاصة، والكشف للمستمعين أن الأصوات تم إنشاؤها بواسطة الذكاء الاصطناعي. أضاف OpenAI أيضًا علامة مائية إلى المقاطع الصوتية لتتبع أصلها ومراقبة كيفية استخدام الصوت بشكل فعال.

اقترحت OpenAI العديد من الخطوات التي تعتقد أنها يمكن أن تحد من المخاطر المتعلقة بأدوات مثل هذه، بما في ذلك التخلص التدريجي من المصادقة المستندة إلى الصوت للوصول إلى الحسابات المصرفية، وسياسات حماية استخدام أصوات الأشخاص في الذكاء الاصطناعي، وزيادة التعليم حول التزييف العميق للذكاء الاصطناعي، وتطوير أنظمة التتبع. لمحتوى الذكاء الاصطناعي.

Izer

“متعطش للطعام. طالب. متحمس محترف للزومبي. مبشر شغوف بالإنترنت.”

الذهب يسجل أسوأ أداء شهري منذ 17 عامًا وسط ضغوط الدولار والطاقة

الدولار يسجل مستوى قياسيًا أمام الجنيه المصري

مع تصاعد التوترات في المنطقة: الحكومة تؤكد جاهزية مخزون السلع والطاقة وتدرس إجراءات استثنائية

سيكولوجية القرارات الاستثمارية في الأسواق المالية

ضغوط تطوير GTA 6 تعيد الجدل حول بيئة العمل في صناعة الألعاب

أبل تستعد للكشف عن آيفون 18 برو بمعالج A20 Pro وتقنيات تصوير متقدمة

أبل تتجه لفتح نظام iOS أمام نماذج ذكاء اصطناعي منافسة ضمن تحديث iOS 27

اترك تعليقاً إلغاء الرد

More Stories