كشفت دراسة حديثة أجراها باحثون في جامعة جونز هوبكينز (Johns Hopkins University) أن البشر يتفوقون على نماذج الذكاء الاصطناعي الحالية في وصف التفاعلات الاجتماعية وتفسيرها ضمن مشاهد ديناميكية. وتُعد هذه القدرة ضرورية لتطوير السيارات الذاتية القيادة والروبوتات المساعدة التي تعتمد بنحو أساسي على الذكاء الاصطناعي للتنقل الآمن في البيئات الحقيقية.
تُبرز الدراسة أن أنظمة الذكاء الاصطناعي الحالية تعاني مشكلة في فهم التفاعلات الاجتماعية الدقيقة والإشارات السياقية الأساسية للتفاعل الفعّال مع البشر. وتشير النتائج إلى أن هذا القصور قد يكون سببه طبيعة البُنية الأساسية لنماذج الذكاء الاصطناعي الحالية.
عُرضت نتائج الدراسة في مؤتمر (International Conference on Learning Representations) للتعلم الآلي والذكاء الاصطناعي في 24 أبريل. وقد قالت (Leyla Isik)، المؤلفة الرئيسية للدراسة و الأستاذة المساعدة في قسم علوم الإدراك في جامعة جونز هوبكينز: “على سبيل المثال: نظام الذكاء الاصطناعي في السيارات الذاتية القيادة، يحتاج إلى تعرّف نوايا وأهداف وتصرفات السائقين والمشاة من البشر. نريد منه أن يعرف في أي اتجاه سيبدأ أحد المشاة بالسير، أو كون شخصين يتحدثان معًا أم على وشك عبور الشارع. وفي أي وقت نريد فيه أن يتفاعل الذكاء الاصطناعي مع البشر بنحو مباشر، نحتاج منه أن يفهم ما يقوم به الناس. وهذه الدراسة تسلط الضوء على أن أنظمة الذكاء الاصطناعي الحالية غير قادرة على ذلك حتى الآن”.
تفاصيل الدراسة
للمقارنة بين أداء نماذج الذكاء الاصطناعي والبشر في فهم التفاعلات الاجتماعية، طُلب من مشاركين بشريين مشاهدة مقاطع فيديو قصيرة مدتها ثلاث ثوانٍ، وتقييم سمات مهمة لفهم التفاعلات الاجتماعية، وشملت المقاطع مشاهد لأشخاص إما يتفاعلون مع بعضهم بنحو مباشر، أو يقومون بأنشطة تعاونية، أو ينفذون أنشطة مستقلة.
بعد ذلك، طُلب من أكثر من 350 نموذجًا للذكاء الاصطناعي – تضمن ذلك نماذج لغوية ونماذج تدربت على مقاطع فيديو وأخرى تدربت على صور ثابتة – التنبؤ بكيفية تقييم البشر للمقاطع، وكيف ستكون استجابات أدمغتهم عند المشاهدة.