في الأسبوع الماضي، اختبر أحد الهواة نموذج جمع الصور الجديد Flux AI تم اكتشافه من الجيد بشكل غير متوقع إنشاء آلات كاتبة مدربة خصيصًا. في حين أن الطرق الأكثر كفاءة لعرض خطوط الكمبيوتر كانت موجودة منذ عقود، فإن التقنية الجديدة مفيدة لعشاق صور الذكاء الاصطناعي لأن Flux يمكن أن يوفر تصويرًا دقيقًا للنص، ويمكن للمستخدمين الآن إدراج الكلمات المقدمة في خطوط مخصصة مباشرة في أجيال صور الذكاء الاصطناعي.
لقد امتلكنا التكنولوجيا اللازمة لإنشاء خطوط سلسة يتم تقديمها بواسطة الكمبيوتر بدقة في أشكال مخصصة منذ الثمانينيات (السبعينيات من القرن الماضي قيد البحث)، لذا فإن إنشاء خط منسوخ بالذكاء الاصطناعي ليس بالأخبار الكبيرة. لكن هناك تقنية جديدة تعني أنه يمكنك رؤية خط معين يظهر في الصور التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، مثل قائمة السبورة في مطعم فوتوشوب أو بطاقة عمل مطبوعة لثعلب سايبورغ.
بعد وقت قصير من ظهور نماذج تركيب صور الذكاء الاصطناعي السائدة مثل الانتشار القياسي في عام 2022، بدأ البعض منها انا اتعجب: كيف يمكنني إدراج منتجي أو ملابسي أو شخصيتي أو أسلوبي في صورة تم إنشاؤها بواسطة الذكاء الاصطناعي؟ إحدى الإجابات التي ظهرت جاءت في شكل لورا (تكيف منخفض الدرجة). تم اكتشافه يتيح 2021 للمستخدمين زيادة المعرفة حول النموذج الأساسي للذكاء الاصطناعي من خلال الإضافات المعيارية المدربة خصيصًا.
تسمح LoRAs، التي تسمى الوحدات النمطية، لنماذج مجموعة الصور بإنشاء مفاهيم جديدة لم يتم رؤيتها في الأصل (أو تم تمثيلها بشكل سيئ) في بيانات التدريب الخاصة بالنموذج الأساسي. من الناحية العملية، يستخدمها هواة الكولاج لتوفير أنماط فردية (قل كل ذلك فن الطباشير) أو المواضيع (صور مفصلة الرجل العنكبوتعلى سبيل المثال). يجب تدريب كل لورا بشكل خاص باستخدام الأمثلة المقدمة من قبل المستخدم.
حتى ظهور Flux، لم تتفوق معظم مولدات صور الذكاء الاصطناعي في تقديم نص دقيق داخل المشهد. إذا كنت ستغري Standard Spread 1.5 بإعطائك هوية باسم “الجبن”، فسيكون ذلك أمرًا سخيفًا. كان DALL-E 3 من OpenAI، والذي تم إصداره العام الماضي، أول نموذج سائد يقوم بتنفيذ النصوص بشكل جيد. لا يزال Flux يرتكب أحيانًا أخطاء في الكلمات والأحرف، ولكنه نموذج الذكاء الاصطناعي الأكثر مهارة في عرض “النص في العالم” (كما يمكنك تسميته) الذي رأيناه حتى الآن.
نظرًا لأن Flux هو نموذج مفتوح متاح للتنزيل والضبط الدقيق، فمن المنطقي تدريب الخط LoRA لأول مرة في الشهر الماضي. هذا واحد اكتشف مؤخرًا أحد المتحمسين للذكاء الاصطناعي يدعى فاديم فيدينكو (الذي لم يستجب لطلب إجراء مقابلة حتى وقت كتابة المقالة). وكتب فيدنكو: “أنا معجب جدًا بكيفية ظهور الأمر”. رديت آخر. “يأخذ Flux الشكل الذي تبدو عليه الشخصيات في نمط/خط معين، مما يجعل من الممكن تدريب Loras على خطوط ومحارف محددة وما إلى ذلك. وقريبًا سيتم تدريب المزيد منهم.”
في تجربته الأولى، اختار فيدنكو فقاعة خط نمط “Y2K”. وتذكيرًا بما كان شائعًا في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، تم إصدار النتيجة على منصة Civitai في 20 أغسطس. بعد يومين، تم إطلاق الآلة الكاتبة الثانية، LoRA، بواسطة مستخدم CVdaily “AggravatingScree7189”. سايبربانك 2077 لعبة فيديو.
“كان النص سيئًا للغاية قبل أن أعتقد أنه يمكنك القيام بذلك” كتب ردًا على منشور Fedenko على الخط Y2K، مستخدم Reddit egg-benedryl. رديت آخر كتب“لم أكن أعلم أن مجلة Y2K مزيفة حتى قمت بتكبيرها.”
هل هو أكثر من اللازم؟
صحيح أن استخدام شبكة عصبية صورية مدربة تدريبًا عميقًا لعرض خط قديم عادي على خلفية عادية يعد أمرًا مبالغًا فيه. لن ترغب في استخدام هذه الطريقة لتحل محل Adobe Illustrator عند تصميم مستند.
“يبدو الأمر رائعًا، ولكن من المضحك إعادة اختراع فكرة الخطوط بحجم 300 ميجابايت.” كتب أحد المعلقين على Reddit في موضوع سايبربانك 2077 الخط.
غالبًا ما يتم انتقاد الذكاء الاصطناعي التوليدي بسبب تأثيره البيئي، وهذا مصدر قلق حقيقي لمراكز البيانات السحابية الضخمة. ولكن عندما يتم تشغيل Flux محليًا على RTX 3060، نرى أنه يمكن إدراج هذه الخطوط في المشاهد التي يتم إنشاؤها بواسطة الذكاء الاصطناعي. قياس (مخفض الحجم) (ويمكن تشغيل نموذج التطوير الكامل على RTX 3090). ويعادل هذا استهلاكًا للطاقة يعادل تشغيل لعبة فيديو على نفس الكمبيوتر. الشيء نفسه ينطبق على إنشاء LoRA: الخالق سايبربانك 2077 الخط مدربة LoRA في ثلاث ساعات على وحدة معالجة الرسومات 3090.
هناك مشكلات أخلاقية تتعلق باستخدام مولدات الصور التي تعمل بالذكاء الاصطناعي، مثل كيفية تدريبها على البيانات التي يتم جمعها دون موافقة مالك المحتوى. وعلى الرغم من أن هذه التكنولوجيا تثير الانقسام بين بعض الفنانين، إلا أن مجتمعًا كبيرًا يستخدمها يوميًا مشاركة النتائج عبر الإنترنت ومن خلال مواقع التواصل الاجتماعي مثل Reddit، يؤدي ذلك إلى ظهور تطبيقات جديدة لهذه التكنولوجيا.
حتى كتابة هذه السطور، لا يوجد سوى اثنين فقط من Flux Typeface LoRAs، ولكننا سمعنا بالفعل عن خطط للأشخاص لبناء المزيد حتى كتابة هذه السطور. على الرغم من أنها لا تزال في مراحلها الأولى، إذا أصبح تركيب صور الذكاء الاصطناعي مستخدمًا على نطاق أوسع في المستقبل، فإن تقنية إنشاء الخط LoRAs ستصبح أساسية. من المرجح أن تنظر شركة Adobe، مع نماذج جمع الصور الخاصة بها، في هذا الأمر.
More Stories
موجة عالمية من الشفاء تنتظرنا: انضم إلى القس كريس أوياخيلومي والقس بيني هين في خدمات الشفاء عبر البث المباشر
قرعة دوري أبطال أوروبا: شكل جديد للكشف عن مباريات 2024-25 – مباشر | دوري أبطال أوروبا
ترك مغني البوب الكوري تيلز فرقة الصبيان وسط مزاعم جنسية