هل يستطيع الذكاء الاصطناعي أن يكتشف مشاعرك من الصور؟
أطلقت شركة جوجل خلال الأيام الماضية نموذج الذكاء الاصطناعي (PaliGemma 2)، الذي يمتاز بقدرته على على تحليل الصور وفهم محتواها بنحو أعمق، فبالإضافة إلى تعرف الأجسام والأشخاص، يمكن لهذا النموذج توليد أوصاف مفصلة لما يحدث في الصورة، بما يشمل: الأفعال والمشاعر التي يعبر عنها الأشخاص. وقالت جوجل في منشور عبر مدونتها: “يولد نموذج (PaliGemma 2) تعليقات توضيحية مفصلة وذات صلة بالسياق للصور، ويتجاوز التعريف البسيط للكائنات لوصف الأفعال والعواطف التي يعبر عنها الأشخاص، والسياق العام للصورة بأكملها”. ويعني ذلك أننا نقترب من تطوير نماذج ذكاء اصطناعي قادرة على فهم العالم المرئي بطريقة شبيهة بالبشر. ويفتح هذا الإنجاز التقني الباب أمام مجموعة واسعة من التطبيقات، بدءًا من توليد الأوصاف التفصيلية للصور ووصولًا إلى تطوير روبوتات ذكية قادرة على التفاعل مع البيئة المحيطة بها، مما يفتح آفاقًا جديدة في مجالات مثل: التجارة الإلكترونية، والرعاية الصحية، والتعليم، وغيرها الكثير. ومع ذلك تثير هذه التكنولوجيا العديد من التساؤلات حول آثارها في المجتمع، فهل يمكننا حقًا الثقة في آلة لتحديد مشاعرنا بدقة، وما العوامل التي قد تؤثر في دقة هذه النماذج، وما العواقب المحتملة لاستخدام هذه التكنولوجيا في بعض المجالات مثل التوظيف؟ كيف يعمل نموذج (PaliGemma 2)؟ يعتمد نموذج (PaliGemma 2) على نماذج (Gemma 2) العالية الأداء والمفتوحة المصدر، مع إضافة قدرة جديدة على فهم المعلومات المرئية ومعالجتها،وتجعل هذه القوة البصرية، إلى جانب سهولة التخصيص، (PaliGemma 2) أداة قوية للمطورين والباحثين على حد سواء. ما الجديد في نموذج PaliGemma 2؟ يتميز إصدار (PaliGemma 2) بمرونة وخصائص متقدمة تجعله أداة قوية في مجال معالجة اللغات الطبيعية والرؤية الحاسوبية، إليك أهم مزاياه: الأداء القابل للتطوير: يمكن تحسين أداء النموذج لأي مهمة بفضل أحجامه المتعددة، إذ يتوفر (PaliGemma 2) بثلاثة أحجام مختلفة، وهي: 3 مليارات معلمة أو 10 مليارات معلمة، أو 28 مليار معلمة، مما يسمح اختيار النموذج الأنسب لحجم البيانات ومدى تعقيد المهمة التي سيعمل على معالجتها. التعليق التوضيحي التفصيلي: يتجاوز (PaliGemma 2) مجرد وصف الأجسام الموجودة في الصور، بل يقدم تعليقات وصفية تفصيلية تشمل الأفعال، والعواطف، والسياق العام للمشهد، ويعني ذلك أنه يمكنه وصف ما يحدث في الصورة وكيف يشعر الأشخاص فيها. تطبيقات متنوعة: أثبت اختبارات جوجل لنموذج PaliGemma 2 قدرته على التعامل مع مهام متنوعة مثل تعرف الصيغ الكيميائية، وقراءة النوتات الموسيقية، وحل مسائل تتطلب التفكير المكاني، وحتى توليد تقارير طبية من صور الأشعة السينية. ونظرًا إلى قدرات نموذج (PaliGemma 2) المتقدمة لم تتيح جوجل مزية اكتشاف المشاعر للاستخدام المباشر، بل جعلت استخدامها يتطلب إجراء تعديلات دقيقة على النموذج، ومع ذلك أعرب العديد من الخبراء عن قلقهم حول مدى إمكانية توفير هذه التقنية بشكل مفتوح. شكوك حول قدرة الذكاء الاصطناعي على قراءة المشاعر: بينما يقدم الذكاء الاصطناعي إمكانيات واعدة في العديد من المجالات، فإن فكرة قراءة المشاعر البشرية بدقة تبقى مثيرة للجدل، فالمشاعر البشرية أكثر تعقيدًا مما يمكن للآلات فهمه، وتتطلب تفاعلات اجتماعية ونفسية لا يمكن للذكاء الاصطناعي محاكاتها بنحو كامل، لذلك يحذر الخبراء من الاعتماد على هذه التقنية ويؤكدون أنها لا تزال في بداياتها وتواجه تحديات كبيرة. وقالت ساندرا واتشر، أستاذة أخلاقيات البيانات والذكاء الاصطناعي في معهد أكسفورد للإنترنت: “إن افتراض قدرة الآلات على قراءة مشاعرنا بدقة هو أمر مثير للقلق. فالمشاعر البشرية معقدة ومتعددة الأبعاد، ولا يمكن اختزالها في بيانات يمكن للآلة تحليلها”. وشبهت واتشر هذه المحاولة بمحاولة استنباط المستقبل من كرة بلورية. أسس علمية هشة: لطالما سعت الشركات الناشئة والشركات التقنية العملاقة إلى تطوير أنظمة الذكاء الاصطناعي، التي يمكنها اكتشاف المشاعر في كل شيء ابتداءً من تدريب المبيعات ووصولًا إلى منع الحوادث. ورغم كل هذه الجهود، لا يزال المجتمع العلمي يقف على حافة هاوية من الشك والتساؤل حول مدى فعالية هذه الأنظمة. إذ تستند العديد من تقنيات كشف المشاعر إلى نظرية عالم النفس بول إيكمان، الذي افترض أن البشر يشتركون في ستة مشاعر أساسية وهي: الغضب، والمفاجأة، والاشمئزاز، والمتعة، والخوف، والحزن، ومع ذلك، أظهرت دراسات لاحقة أن هذه الفرضية قد تكون مبسطة للغاية، وأن التعبير عن المشاعر يختلف بشكل كبير بين الثقافات والأفراد، مما يضع علامات استفهام كبيرة حول قدرة الآلات على فهم هذه التعقيدات الدقيقة. ويؤكد مايك كوك، الباحث المتخصص في مجال الذكاء الاصطناعي في كينجز كوليدج لندن، أن المشاعر البشرية أكثر تعقيدًا مما نتصور، لأنها تتأثر بعوامل ثقافية واجتماعية ونفسية معقدة، وأن محاولة حصرها في فئات محددة أمر صعب. وقال: “يمكننا بالطبع أن نستنتج بعض المشاعر من خلال ملاحظة تعبيرات الوجه ولغة الجسد، ولكن هذا لا يعني أننا نستطيع قراءة العقل البشري”. تحيزات وتحديات تقنية: أظهرت الدراسات أن أنظمة كشف المشاعر غالبًا ما تكون غير موثوقة ومتحيزة بسبب افتراضات مصمميها، فقد أظهرت دراسة أجراها معهد ماساتشوستس للتكنولوجيا في عام 2020، أن نماذج تحليل الوجه قد تطور تحيزًا غير مقصود نحو تعبيرات معينة مثل الابتسام، مما يؤثر في دقة نتائجها. كما كشفت دراسات أخرى عن وجود تحيز عرقي ملحوظ في نماذج الذكاء الاصطناعي المتخصصة في تحليل المشاعر، إذ تميل هذه النماذج إلى تصنيف الوجوه السوداء بأنها تعبير عن مشاعر سلبية أكثر من الوجوه البيضاء، مما يعكس التحيزات العرقية المتأصلة في البيانات المستخدمة لتدريبها. اختبارات جوجل لتقييم التحيزات: أكدت شركة جوجل أنها أجرت اختبارات مكثفة على نموذجها الجديد (PaliGemma 2) للكشف عن أي تحيزات محتملة، وخاصة تلك المرتبطة بالديموغرافية. وقد أشارت الشركة إلى نتائج واعدة في هذا الصدد، إذ أظهر النموذج مستويات منخفضة من السمية والألفاظ البذيئة مقارنة بمعايير الصناعة. ولكن، هل هذه النتائج كافية لطمأنة المستخدمين والباحثين؟ تثير هذه ادعاءات جوجل العديد من التساؤلات حول الشفافية في عملية التقييم، فقد قالت جوجل إنها أجرت اختبارات مكثفة، ولكنها في الوقت نفسه لم تكشف عن قائمة المعايير التي استخدمتها، ولم توضح أنواع الاختبارات التي أجرتها. والمعيار الوحيد الذي كشفته جوجل هو معيار (FairFace)، المتمثل في مجموعة ضخمة من صور الوجوه، وقد أشارت إلى أن (PaliGemma 2) قد حقق نتائج جيدة خلاله. ولكن العديد من الباحثين يشككون في كفاءته كأداة شاملة لتقييم التحيزات، لأن معيار (FairFace) يغطي مجموعة محدودة من المجموعات العرقية، مما يعني أن النموذج قد يظهر أداءً جيدًا في هذه المجموعات دون أن يكون خاليًا من التحيزات تجاه مجموعات أخرى. وقالت هايدي خلّاف، كبيرة علماء الذكاء الاصطناعي في معهد (AI Now)، وهو منظمة غير ربحية تدرس الآثار الاجتماعية للذكاء الاصطناعي: “إن تفسير المشاعر مسألة ذات طابع شخصي للغاية، تتجاوز مجرد استخدام المساعدات البصرية، وهي تعتمد بنحو كبير على السياق الشخصي والثقافي ما يجعل أي محاولة لقياسها بدقة أمرًا صعبًا”. وأشارت إلى أن الأبحاث العلمية لم تثبت بعد إمكانية استنتاج المشاعر بدقة من خلال تحليل ملامح الوجه وحده. وقد أثارت أنظمة اكتشاف المشاعر قلق الجهات التنظيمية في العديد من الدول، خاصةً فيما يتعلق باستخدامها في سياقات حساسة مثل التعليم والتوظيف، فعلى سبيل المثال يحظر قانون الذكاء الاصطناعي في الاتحاد الأوروبي استخدام هذه الأنظمة في المدارس وأماكن العمل. التهديدات المحتملة للنماذج المفتوحة المصدر مثل PaliGemma 2: تتمثل أكبر المخاوف بشأن النماذج المفتوحة، مثل PaliGemma 2، – التي تتوفر عبر العديد من المنصات بما يشمل منصة (Hugging Face) لتطوير الذكاء الاصطناعي – في أنها عرضة للإساءة والاستغلال، فبمجرد إطلاقها، يمكن لأي شخص استخدامها لأغراض غير أخلاقية، مما قد يؤدي إلى نتائج وخيمة في العالم الواقعي. وحذرت هايدي خلّاف من أن الاعتماد على أنظمة قراءة المشاعر المبنية على فرضيات غير علمية قد يؤدي إلى تعزيز التمييز ضد الفئات المهمشة، إذ يمكن استخدام هذه الأنظمة في مجالات مثل تطبيق القانون والموارد البشرية لاتخاذ قرارات متحيزة ضد أفراد من خلفيات ثقافية أو اجتماعية مختلفة. وعندما سُئل متحدث باسم جوجل عن مخاطر إطلاق (PaliGemma 2) للجمهور، أكد أن الشركة قد أجرت تقييمات شاملة للنموذج للكشف عن أي أضرار محتملة قد تنجم عن استخدامه في توليد الأوصاف والردود على الاستفسارات المرتبطة بالصور. وقال: “لقد أجرينا تقييمات قوية لنماذج PaliGemma 2 فيما يتعلق بالأخلاق والسلامة، بما يشمل: سلامة الأطفال وسلامة المحتوى”. وبدورها، عبرت ساندرا واتشر عن عدم اقتناعها بهذه الإجابات، مؤكدة أهمية التفكير في العواقب المحتملة لمثل هذه التقنيات منذ المراحل الأولى من تطويرها، وحذرت من أن سوء استخدام هذه النماذج قد يؤدي إلى نتائج وخيمة، مثل التمييز في التوظيف أو القروض أو القبول الجامعي. نسخ الرابط تم نسخ الرابط