تمكنت نماذج الذكاء الاصطناعي من النظر إلى الصور وإخبارك بما يمكنها رؤيته داخل الصورة لسنوات، ولكن مع تحديث الربيع، أخذت OpenAI الأمور إلى مستوى جديد.
مع طرح GPT-4o في ChatGPT – حتى بدون وظيفة الصوت والفيديو – كشفت OpenAI عن أحد أفضل نماذج رؤية الذكاء الاصطناعي التي تم إصدارها حتى الآن.
يعود نجاحها جزئيًا إلى حقيقة أنها متعددة الوسائط، ولديها فهم أعمق للصور والفيديو والصوت والنص. يمكنه التفكير عبر الصورة والكلام والفيديو والنص حيث يتم تحويل النماذج الأخرى أولاً إلى نص.
ولاختبار قدراته، أعطيته سلسلة من الصور وطلبت منه وصف ما يمكنه رؤيته. كلما كان النموذج أكثر دقة. في كثير من الأحيان، تفتقد نماذج رؤية الذكاء الاصطناعي – بما في ذلك GPT-4 – كائنًا واحدًا أو اثنين أو تحصل على وصف خاطئ.
اختبار الرؤية GPT-4o
في كل اختبار، أعطيت ChatGPT-4o الصورة والمطالبة “ما هذا؟” دون أي سياق أو معلومات إضافية. وهذا أقرب إلى الكيفية التي من المرجح أن يستخدم بها الناس هذه الإمكانية في العالم الحقيقي وكيف استخدمتها مؤخرًا في حدث في باريس.
الهدف هو معرفة مدى جودة تحليل الصورة. لقد تابعت الأمر في كل مناسبة لأسأل ما إذا كان بإمكانه اكتشاف ما إذا كانت الصورة تم إنشاؤها بواسطة الذكاء الاصطناعي أم لا. لقد تم إنشاؤها جميعًا باستخدام Ideogram من الوصف الذي أنشأه Claude 3 – لذا فإن الذكاء الاصطناعي بالكامل.
بعد أول صورتين في المحادثة، بدأ يخبرني تلقائيًا ما إذا كان يعتقد أن الصورة تم إنشاؤها بواسطة الذكاء الاصطناعي أم لا دون أن أضطر إلى السؤال.
لقد بدأت في تطبيق ChatGPT Desktop ولكن ذلك بدأ يفشل في الاستجابة، لذا انتقلت إلى الويب وعملت بشكل جيد.
1. التعرف على الأشياء
بالنسبة لهذه الصورة الأولى، قمت بإنشاء صورة لكوب من السيراميك الأحمر مملوء بالقهوة الساخنة. تم وضعها على طبق على طاولة خشبية في مقهى، لكن المقهى كان غير واضح. والفكرة هي معرفة كيف يفسر GPT-4o الخلفية والسيناريو.
كتب GPT-4o: “تُظهر هذه الصورة فنجانًا من القهوة يتصاعد منه البخار في فنجان أحمر وصحن موضوع على طاولة خشبية ريفية. الخلفية غير واضحة، وتصور مكانًا داخليًا مريحًا حيث يجلس الأشخاص ويتحدثون فيما يبدو أنه مقهى يشبه الكهف أو تصميم داخلي فريد بجدران حجرية. وينصب التركيز على فنجان القهوة، مع تسليط الضوء على البخار المتصاعد من المشروب الساخن.
هذا دقيق ووصفي بقدر ما يمكن الحصول عليه. حتى رسم صورة للمشهد تتجاوز الوصف البسيط. ومن باب المزاح طلبت منه: “وصف أفكار الشخص الجالس على الطاولة مع هذه القهوة الجاهزة للشرب”.
أجابت بنظرة عامة وصفية جميلة ولكن هذا السطر برز: “هذه القهوة أكثر من مجرد مشروب؛ إنها طقوس، ولحظة عزيزة من العزلة والتأمل وسط صخب الحياة اليومية.
2. التعرف البصري على الحروف (OCR)
تعد تقنية التعرف الضوئي على الحروف (OCR) تقنية قديمة قدم الحوسبة، لذا يجب أن تكون تافهة بالنسبة لأي نموذج رؤية، حتى الهواتف الذكية تفعل ذلك على الجهاز. لقد أعطيتها صورة بسيطة تظهر لقطة مقربة لعلامة خشبية قديمة مكتوب عليها “مرحبًا بكم في أوكفيل” بأسلوب عتيق مكتوب بخط اليد. أريد أكثر من مجرد النص من الذكاء الاصطناعي.
تم تسليم GPT-4o؛ جاري الكتابة: “تُظهر هذه الصورة لافتة ذات مظهر عتيق مكتوب عليها “مرحبًا بكم في أوكفيل”. تبدو اللافتة متأثرة بالعوامل الجوية، مع لمسة نهائية ريفية قديمة، مما يشير إلى أنها تعرضت للعوامل الجوية لبعض الوقت. النص مكتوب بخط أبيض غامق على خلفية حمراء، مع بعض علامات التآكل، مما يزيد من سحره الذي يبعث على الحنين. اللافتة محاطة جزئيًا بالخضرة، مما يشير إلى أنها قد تكون موضوعة في الخارج، ربما عند مدخل بلدة أو مجتمع يُدعى أوكفيل.
ولم يقتصر الأمر على قراءة النص بشكل صحيح فحسب، بل اقترح أيضًا مزيدًا من التفاصيل حول الموقع، مع تحديد بلدة أو مستوطنة محتملة وسحب تفاصيل اللافتة نفسها.
3. التعرف على الوجه
يعد هذا استخدامًا مثيرًا للجدل لتكنولوجيا الذكاء الاصطناعي وهو محظور إلى حد ما في الاتحاد الأوروبي. ولكن ما مدى قدرة GPT-4o على وصف الوجه؟ كانت الصورة عبارة عن تصوير تم إنشاؤه بواسطة الذكاء الاصطناعي لامرأة في الأربعينيات من عمرها ذات شعر داكن وعينين بنيتين دافئتين. كانت لديها ابتسامة ودية.
وصفها GPT-4o على النحو التالي: “هذه الصورة عبارة عن صورة مقربة لامرأة مبتسمة ذات شعر داكن مجعد. ينصب التركيز على وجهها، المضاء جيدًا، والذي يُظهر تفاصيل نسيج البشرة وملامحها. لديها تعبير ودود، وعيناها تنظران مباشرة إلى الكاميرا. الخلفية غير واضحة، مع التركيز على الموضوع.”
كنت أرغب في المزيد قليلاً، بما في ذلك في سن معينة. فسألتها “ما هو عمر هذه الشخص وما هي حالتها العاطفية”. أجابت بحقيقة أنها في أواخر الثلاثينيات إلى أوائل الأربعينيات من عمرها وفي حالة ذهنية إيجابية، موضحة: “الانطباع العام هو أنها في مكان جيد عاطفياً، وربما تشعر بالرضا والراحة”.
4. الكشف عن المشاعر
بعد ذلك، أردت أن أرى مدى نجاح GPT-4o مع صورة رجل كبير السن ذو تعبير حزين. هل سيلتقط ذلك أم يصف المشهد فقط. تذكر أن الإدخال الوحيد الذي كانت عليه هو “ما هذا” والصورة.
كان أداء GPT-4o جيدًا. وجاء في الصورة: “هذه الصورة هي صورة لرجل مسن يجلس على مقعد في الهواء الطلق، على الأرجح في حديقة. تشير الإضاءة إلى أن الصورة التقطت خلال الساعة الذهبية، حيث يسلط ضوء الشمس الناعم الضوء على وجهه. تعبير الرجل مدروس، مع تلميح طفيف من الكآبة أو التأمل. إنه يرتدي قميصًا بياقة وسترة، والخلفية غير واضحة، مما يركز الانتباه على الرجل مع توفير بيئة طبيعية ممتعة.
لقد فعل نموذج الذكاء الاصطناعي ما كنت أتمناه بالضبط: وصف المشهد وتقديم اقتراحات حول ما قد يشعر به الرجل في تلك اللحظة.
5. فهم المشهد
ما مدى قدرة GPT-4o على وصف مشهد من الصورة وتحديد العناصر داخل المشهد؟ وهذه مهارة مفيدة حيث يتم استخدام نموذج الذكاء الاصطناعي بشكل متزايد للمساعدة في وصف العالم الحقيقي. إنها إحدى الميزات الرئيسية لوضع الصوت الجديد في ChatGPT.
أعلن GPT-4o: “تُظهر هذه الصورة سوقًا حيويًا للمزارعين في الهواء الطلق في يوم مشمس. تم إنشاء أكشاك مختلفة تحت الخيام، لعرض وفرة من المنتجات الطازجة بما في ذلك الفواكه والخضروات وغيرها من السلع. يتجول الناس في السوق ويتصفحون ويتسوقون ويتفاعلون مع البائعين. يبدو أن السوق يقع في منطقة جميلة تصطف على جانبيها الأشجار، وتظهر أوراق الشجر الخضراء في الخلفية. تبدو الأجواء نابضة بالحياة ومجتمعية، مع التركيز على المنتجات المحلية والطازجة.
ليس الكثير ليقوله. لقد كان دقيقًا في وصفه للصورة والوضع. لقد قدمت تفاصيل أكثر مما كنت أتوقع، وسلطت الضوء على بعض المنتجات المعروضة للبيع.
6. تقييم جودة الصورة
لقد طلبت من Ideogram إنشاء أربع صور متطابقة تقريبًا في شبكة ولكن مع إعطاء كل منها مستوى دقة أو تركيب مختلف. أردت أن أرى كيف سيصف GPT-4o هذا. يمكنه التعامل مع الصورة الأساسية، ولكن ماذا عن أربعة منها، كل منها مختلف قليلاً؟
كتب GPT-4o: “الصورة عبارة عن مجموعة من أربع صور فوتوغرافية للمناظر الطبيعية مرتبة في شبكة، تعرض كل منها منظرًا خلابًا للتلال المتموجة المغطاة بالعشب الأخضر والأزهار البرية تحت سماء مليئة بالغيوم.” جيد جدا حتى الآن.
ويستمر: “تُظهر الصورة العلوية اليسرى سماء متدرجة ناعمة باللونين الوردي والأزرق، مما يوحي بالفجر أو الغسق، مع تلال مغمورة بضوء ذهبي دافئ، مما يعزز العشب الأخضر النابض بالحياة والزهور الصفراء والبيضاء. تُظهر الصورة العلوية اليمنى مشهدًا مشابهًا ولكن بألوان هادئة، مما يشير إلى الصباح الباكر أو في وقت متأخر بعد الظهر. تتميز الصورة السفلية اليسرى بألوان أكثر برودة وسماء زرقاء أكثر وضوحًا، مما يشير إلى منتصف النهار مع إضاءة أكثر نعومة. الصورة اليمنى السفلية أكثر دفئًا وأكثر تشبعًا، مع لون وردي في السماء، مما يوحي بضوء غروب الشمس الدافئ. توضح هذه الاختلافات في الإضاءة ودرجة الألوان كيف يمكن لاختلاف أوقات اليوم وتقنيات التصوير الفوتوغرافي أن تؤثر على الحالة المزاجية والمظهر لنفس المشهد الطبيعي.
على الرغم من أنها لم تستوعب الغرض من شبكة الصور الأربع – مقارنة التركيب – إلا أنها كانت قادرة على وصف كل منها على حدة وهو أمر مثير للإعجاب. في الواقع قامت بإجراء مقارنة خاصة بها بين الصور.
7. الكشف عن الكائنات المتعددة
أخيرًا، هناك اختبار مهم إذا كان النموذج يريد أن يكون مفيدًا كأداة إمكانية الوصول – مدى نجاحه في اكتشاف الكائنات في مشهد مزدحم. نفس المطالبة مثل الآخرين. تُظهر الصورة مكتبًا مزدحمًا وأتوقع أن يسحب شيئًا صغيرًا واحدًا على الأقل.
كتب GPT-4o: “تُظهر الصورة مساحة عمل مكتبية حديثة ومنظمة مع منظر للمدينة يمكن رؤيته من خلال النوافذ الكبيرة في الخلفية. تم ترتيب المكتب بشكل أنيق مع العديد من العناصر التي توجد عادة في بيئة عمل منتجة، بما في ذلك جهاز كمبيوتر محمول في وضع مركزي، ومصباح مكتبي معدني، وفنجان قهوة، مما يوحي بجو مريح ولكنه مركز. تشير الدفاتر والأوراق المتناثرة إلى العمل النشط وتدوين الملاحظات، بينما يضيف نبات صغير محفوظ بوعاء لمسة من المساحات الخضراء. توفر الصورة المؤطرة لشخصين لمسة شخصية، ومن المحتمل أن تكون بمثابة مصدر للتحفيز. مساحة العمل مليئة بالمستلزمات المكتبية مثل الأقلام وأقلام الرصاص والمنظمات، مما يضمن الأداء الوظيفي. إن الخلفية الحضرية لأفق المدينة مع المباني الشاهقة الحديثة تخلق بيئة ديناميكية وملهمة.
انها عملت. قررت أن أقوم بالمتابعة وأطلب منه أن يخبرني عن لون وعاء النبات وقد تم تحديده على الفور. لذلك طلبت منه العثور على نظارتي في الصورة، فقال بشكل صحيح: “نظاراتك موجودة على المكتب على يمين الكمبيوتر المحمول، موضوعة فوق دفتر ملاحظات.”
ملخص
كل نموذج رؤية استخدمته في الماضي ارتكب خطأً واحدًا على الأقل، وعادةً ما يكون خطأً كبيرًا مثل الخطأ في التعرف على شيء ما أو عدم التقاط لون أو علامة تجارية.
حصل GPT-4o على كل واحدة من هذه النقاط. لقد كان الانتقال إلى تعدد الوسائط الحقيقي بمثابة تغيير في قواعد اللعبة بالنسبة لـ OpenAI.
كما يوضح أيضًا القيمة المحتملة للنظارات الذكية باعتبارها المستقبل الحقيقي للتفاعل مع البيانات. انسَ الهاتف الذكي، فلنستخدم الرؤية لدمج الواقعي والرقمي.
المزيد من دليل توم
“مدمن السفر. فخور بالتواصل. خبير مستقل في ثقافة البوب. رجل أعمال.”
More Stories
هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي
كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max
تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك