هل تساءلت يوما كيف يتمكن الحاسوب (الكمبيوتر) من تحديد الصور الفاضحة والمواد الإباحية والتعرف عليها؟

في السابق، وقبل سنة 2017 بالتحديد كان يتوجب على كل من تم قبوله للعمل كمهندس في شركة غوغل أن يوقّع على تنازل غريب، وهو توقيع اتفاقية تصرح بأنه خلال عمله من الممكن أن يتعرض لرؤية محتوى البالغين، ومن ضمنه صور إباحية. مع أن تلك الشروط قد تم إلغاؤها الآن، لكن ذلك يبقى شاهداً على أن شبكة الإنترنيت ليس لديها رقابة على نفسها، لذا يجب على أحدهم صنع نظام يمنع عرض صور الناس العراة للمستخدمين الذين لا يفترض بهم أن يروها.

قضى المهندسون الكثير من الوقت في تصميم وتطوير وتجربة الكثير من الخوارزميات لفلترة المحتوى الخاص بالبالغين. إن بناء تلك الخوارزميات لا يعتبر مهمةً سهلة على الإطلاق، فحتى نحن البشر قد نواجه صعوبة بالغة في تحديد المحتوى الإباحي، لكن على الأقل يمكننا الجزم فيما إذا كان الشخص في الصورة عارياً أم لا، بينما يصعب هذا على أجهزة الكومبيوتر ويبقى في غاية التعقيد، فأنت عندما تنظر إلى صورة تستطيع تحديد ما تحتوي عليه من أشخاص مثلا وطاولات ومقاعد وما إلى ذلك، ولكن كل ما يراه الكومبيوتر هو عبارة عن مجموعة من البكسلات Pixels -مربعات صغيرة من الألوان- فقط، هذه البكسلات التي تكون مكررة ملايين المرات في الصورة الواحدة، فمن أين يبدأ شكل أي جسم أو ينتهي من بين كل تلك المربعات من الألوان المبعثرة؟

دعنا نفترض أنك استطعت تحديد أن ما تراه هو شيء مميز من الصورة ومختلف عما حوله، كيف يمكنك أن تحدد ما هو؟ أو إذا ما كان شخصاً عارياً أم لا؟ فحتى أن صورتين لشيء واحد قد تكونان مختلفتين للغاية، فعلى سبيل المثال قد تكون الصور الأربعة التالية لنفس الذراع البشرية مختلفة جداً عن بعضها:

مع أنها كلها تنتمي لنفس الشخص وهو (ميشال أوباما)، وذلك قد يرجع للاختلاف في الإضاءة والزاوية وبعض الأمور الأخرى مما يجعل من الصعب القول بأنها تمثل نفس الصورة لنفس الشيء.

وفي بعض الأحيان نواجه مشكلة معاكسة أيضاً، فقد نعتقد أن ما نراه في صورتين مختلفتين هو نفس الشيء مع أنه قد لا يكون كذلك، فقد يكونان شيئين مختلفين ولكن متشابهين لحد بعيد. مثل الصورة التالية التي قد تجعلك تنظر إلى كلب مع أنه ليس كذلك:

صورة تجمع بعض أنواع الكلاب وبعض الأشياء التي تشبهها شكلا إلى حد بعيد

قد يظن البعض أن أمر تحديد ما في تلك الصور هو عملية سهلة، وهو اعتقاد خاطئ تماما. في الحقيقة تعتبر عملية إدراك تلك الصور أمراً في غاية التعقيد، وتحتاج إلى كم هائل من عمليات المقارنة والإدراك التي تطورت أدمغتنا لتستطيع القيام بها من دون أن تعلم حتى أنها تقعل ذلك، فحوالي 30٪ من القشرة الدماغية مخصصة فقط لعملية الرؤية.

والأمر أكثر تعقيدا بالنسبة للكمبيوترات، التي من أجل تمكينها من إدراك محتويات الصور بنفس الطريقة التي ندركها بها نحن البشر توجب على المهندسين البدء من الصفر، حيث كان عليهم بطريقة ما أن ينتقلوا من وصف الصورة على أنها مجموعة من النقاط الملونة البالغة الصّغَر إلى توصيف أعلى في المستوى مثل: النسيج أو التركيب والأشكال والأشياء.

في فترة سابقة من تاريخ الحَوْسَبَة، في ثمانينيات وتسعينيات القرن الماضي بالتحديد، كان الهدف هو التفكير ملياً حول ماهية العناصر الموجودة في الصورة التي تستطيع أن تقدم توصيفاً مقبولاً على مستوى عالٍ للصورة، وبعد ذلك يصبح بالإمكان تصميم خوارزمية مخصصة لاستخراج تلك العناصر من الصورة. أحد هذه العناصر التي من الممكن أن ننظر إليها هي الزوايا والأشكال المتجاورة وأيضاً ما يسمى بالنقاط الأساسية Keypoints وهي بكسلات محددة تبقى النقاط المجاورة لها ثابتة تقريباً عند تكبير وتصغير الصورة، وبهذه الطريقة يمكن لك أن تلخص الصورة بنمط لا يتغير كثيراً بتعديلات صغيرة كالتدوير أو الإضاءة.

النقاط الأساسية التي تقوم الخوارزميات بالبحث عنها عند تحليل الصور – صورة: ويكيميديا

وكان الأمل حين ذاك أن تكون الحواف والملامح والنقاط الأساسية متشابهة في كل الصور التي تملك نفس المحتوى كصور القطط مثلاً، وبهذه الطريقة يمكن بناء خوارزمية مخصصة تستطيع أن تقرر أي صور يجب عرضها على المستخدم عندما يكتب الكلمة المفتاحية ”قطط“ أو Kitten في محرك البحث.

أما في حالة صور الأشخاص العراة، تم استعمال هذا النموذج في تحليل الصور في ورقة علمية عام 1996، أي بعد بضع سنوات من انطلاق المواقع الاباحية على شبكة الإنترنيت، وكان عنوان الورقة العلمية: ”تحديد الأشخاص العراة“. كانت أول خطوة اتخذها الباحثون هي تحديد المجالات اللونية التي يحتمل بأنها تمثل الجلد، مما يعني البحث عن البكسلات ذات اللون الأصفر أو البني وربما بعض الألوان ذات التدرجات المائلة إلى الحُمرة، حيث لا يُظهر الجلد تمازجات لونية كبيرة على الأغلب، على الأقل في الصور الإباحية، وكما ورد في نفس الورقة العلمية: ”الأجزاء كثيرة الشعر نادرة“، لذا من المفترض أن أي بيكسل يعرض جزءاً من الجلد لا يفترض به أن يختلف كثيراً عما حوله.

ثم إذا توصل البحث إلى أن 30٪ على الأقل من الصورة ممكن أن تمثل الجلد، ستحاول الخوارزمية بعدها التوصيل بينها لتكوّن أجزاء من الجسد وذلك عبر تجميع الأقسام التي تحتوي على لون جلد متماثل لتكوين مقاطع أكبر، والمقاطع المتقاربة ممكن أن تكوّن أطرافاً، ويمكن جمع الأطراف ومقاطع لونية أخرى لتكوين مجموعات مثل منطقة الظهر مع الفخذ أو طرفاً من أطراف الجسم مع طرف آخر، وأخيراً يقوم النظام بتحديد المجموعات التي من الممكن أن تكوّن هندسياً جسماً بشرياً في إحدى وضعياته المحتملة مثل شخص يثني ساقيه أو يرفع أحد قدميه وما إلى ذلك، وكل من المجموعات المشكّلة التي لا تعتبرها الخوارزمية جسما بشريا مقبولا هندسيا وفقا لما برمجت عليه، تفترض مباشرة بأنه صورة جسم بشري عارٍ.

صورة تعرض جزءاً كبيرا من الجلد الذي لا يختلف لونه كثيراً عما حوله.

عملت هذه الطرق على تقديم أداء مقبول ولكن لها بعض السلبيات منها أن تلك القواعد التي برمجت عليها كانت هشة للغاية. على سبيل المثال، لا يضع البشر جذوعهم -الجذع هو الجزء العلوي من الجسم- بين أفخاذهم ولكن هذا يحدث أحيانا خاصة في الأفلام الإباحية، ومنه فهذا الشكل غير مقبول هندسيا ليتم تصنيفه على أنه جسم بشري في الأساس مما يجعل الخوارزمية تصرف عنه النظر أساسا.

مثال آخر هو اعتبار نسبة 30٪ من الجلد عتبة من أجل تحديد العري والبحث عن الأشخاص العراة في الصورة، لماذا هذه النسبة بالذات، لم لا تكون 15 أو 35 بالمائة مثلا؟ ومن أجل إحراز أي تقدم في هذا المجال وجب على المهندسين إعادة النظر في كل تلك الخوارزميات المعدة خصيصاً لهذا الموضوع وكيفية تفاعلها.

ومن العوائق الكبيرة التي حالت دون تميز هذا النظام هو أنه يعتمد بشكل كبير على إبداع المهندسين المبرمجين له وما يعتبرونه شكلا هندسيا يوحي بصورة شخص عارٍ من عدمه وما يستطيعون برمجته من أجل تمكين الحاسوب من تحديد ذلك الشكل واعتباره منتوجا إباحيا، كما أن الاعتماد على التدرجات اللونية أساسا يعتبر بشكل ما ساذجا لأنه ببساطة عاجز في هذه الحالة على تحديد والتعرف على الأجزاء المحتشمة عادة من الجسم مثل الأعضاء التناسلية والأثداء وما إلى ذلك، فلو أن شخصا ارتدى ملابس كاملة مثلا وأبقى على أعضائه التناسلية مكشوفة فقد لا يمثل هذا الجزء العاري من جسمه نسبة 30٪ من الجلد المكشوف التي تستدعي من الكمبيوتر إجراء علمية البحث عن الأشخاص العراة في الصورة.

في العقود الأخيرة الماضية بدأت طريقة جديدة بالانتشار في عالم معالجة الصور بما في ذلك اكتشاف الصور العارية، واسمها ”الشبكة العصبية التلفيفية“ Convolutional Neural Network والفكرة الأساسية التي تتمحور حولها هي: بدلاً من تحديد مواصفات الصور الإباحية بشكل يدوي وتقليدي ووضع خوارزمية لكشف كل صفة، يمكنك بناء نظام يمكنه تحديد ذلك بنفسه.

يتم ذلك من خلال عرض الآلاف من الأمثلة التدريبية على النظام التي يعنون بعضها بـ”آمن للعمل“ وبعضها الآخر ”غير آمن للعمل“، فيقوم النظام بصنع أنماط عامة عن تلك الصور وتحديد مواطن التشابه والتشارك بينها كبقع أو تمايز لوني أو ألوان، ويحلل كيف تجتمع تلك الأنماط مع بعضها لتكون أنماطاً أكبر وأكثر تعقيداً كالخطوط والحواف، ومن ثم يمكنه التعرف على أنماط أكبر كألوان الجلد والشعر على الجلد، وبعد ذلك يبدأ بالتعرف على أشياء أخرى كالحلمات وسرة البطن ويقوم بالتخمين ما إن كان ما يراه هو جسد عارٍ أم لا.

والتقنية الأساسية في هذا النظام هي نفس التقنية التي كانت السبب في إحداث تطورات كبيرة في مجال الذكاء الاصطناعي وهي الشبكات العصبية العميقة DNNs.

بنيت تلك الشبكات على مبدأ الشبكات الموجودة بين الخلايا الدماغية وتمكن المهندسون من جعل النظام يحاكي نسخة بسيطة جداً عنها. تكون الخلايا العصبية (المحاكاة) مصنفة برمجياً على عدة طبقات، وتستقبل كل خلية مجموعة من المُدخَلات مثل ألوان بعض البكسلات أو نتائج المعالجة التي أجرتها الطبقة السابقة من الخلايا، ومن بعدها تقوم بإجراء عدة عمليات حسابية بسيطة بناءً على قواعد خاصة بها وموجودة داخلها ومن ثم تقوم بتمرير النتائج إلى الطبقة التالية.. وهكذا، وتكون النتائج التي توصلت إليها الطبقة العليا والأخيرة هو أفضل تخمين للإجابة الصحيحة للنظام، وكلما ترى الشبكة مثالا تدريبياً جديداً -صورة في هذه الحالة- تقوم بتخمين ماهية ما تراه، فإذا كان تخمينها خاطئاً تقوم بتعديل الإعدادات الموجودة في كل خلية ليصبح احتمال حدوث نفس الخطأ أقل في المرات القادمة.

هناك أنواع كثيرة من تلك الشبكات العصبية، ولكن ”الشبكات العصبية المعقدة“ هو النوع الأكثر استخداماً في عملية معالجة الصور، في الطبقة الأولى من تلك الشبكة تقوم كل خلية عصبية بفحص إطار صغير من الصورة المُدخَلة، وتكون النتيجة هي مدى مقاربة ذلك الإطار الصغير لنموذج محدد موجود مسبقاً، فقد يكون لونا معينا أو تمازجا معينا بين اللون والإضاءة، ويأتي ذلك النموذج أو المثال مما تتعلمه الخلية العصبية عندما يتم تحديث معامِلاتها أثناء تدريب الشبكة، كما تكون كل طبقة من طبقات الشبكة العصبية مقسمة بدورها إلى عدة مجموعات، وكل مجموعة تمتلك خلاياها نفس النموذج، وكل خلية عصبية مختصة بجزء من الصورة، وهكذا تقوم كل مجموعة بمقارنة جميع أجزاء الصورة مع نفس النموذج، وتقوم كل تلك الخلايا بتحديث إعداداتها سوية وبالتالي تستطيع كلها المقارنة مع نفس النموذج، ومن هنا أتى اسم ”تلفيفية“… أياً يكن؛ مقارنة نفس القالب على كل جزء من الصورة.

تختص كل طبقة من طبقات هذه الشبكة المعقدة وخلاياها بمهمة معينة، فتختص الطبقة الأولى على سبيل المثال بتحديد الإطارات والهياكل الهندسية التي يمكن تحديدها على أنها قد تعود لأشخاص عراة، ثم تقوم هذه الطبقة بتمرير نتائج ما توصلت إليه إلى الطبقة التالية التي تعمل على مستوى آخر، فقد تكون مختصة مثلا بتحديد الألوان والتدرجات اللونية ومقارنتها بما تعلمته وما تدربت عليه سابقا، ثم تقوم هي الأخرى بتمرير نتائجها إلى الطبقة الموالية التي تعمل عليها وفقا تخصصها، وهكذا إلى أن تكتمل الصورة ويصل النظام إلى نتيجة نهائية مع الطبقة الأخيرة أو العليا.

صورة جواميس البوفالو — تحديد الإطارات والهياكل الأساسية ضمن الصورة

تقدم الشبكات العصبية تلك فوائد أكثر من الطرق التقليدية. حيث يمكنها على سبيل المثال أن تدرك صورة مقربة على عضو ذكري بنفسها بدون أن يضطر المهندسون أن يخمنوا ذلك ويعدوا من أجله خوارزمية ليتمكن النظام من تحديده.

من فوائد تلك الشبكات أيضا هي أن كل شيء مبني على مقياس متدرج من التشابهات عوضاً عن القوانين السريعة والصعبة، فكل خلية تسأل نفسها: ما مدى مقاربة هذا الجزء من الصورة لخط أو ساق بشرية أو أي شيء، ويعني هذا بأن الشبكة تمتلك المرونة التي تجعلها تجمع أكثر من دليل على مقاربة معينة، عوضاً عن احتياج كل مقاربة لخوارزمية لوحدها.

تستطيع تلك الشبكات أيضاً تبديل نموذج تطوير النظام بنفسها: إذا كانت تلك الشبكة تعطي نتائج خاطئة عن صور لملابس السباحة، فقط قم بتزويدها بصور لملابس السباحة مع النماذج التدريبية، وسيكتشف النظام لوحده كيفية تفريق تلك الصور عن صور التعري الحقيقية.

في الواقع، يمكنك أخذ شبكة مصممة لفلترة الصور الاباحية وإعادة تدريبها لفلترة أي شيء آخر تريده، وكل هذا لا يعني بالمطلق بأن تلك الشبكات قوية للغاية، حيث ما زالت هناك اختيارات حساسة جداً يتوجب على العنصر البشري من النظام تحديدها بنفسه، مثل الكيفية التي يجب أن تكون عليها بنية الشبكة؟ وماذا يجب أن يكون حجم الإطار المأخوذ؟ لذا مازال يتوجب على الإنسان القيام بعمليات معقدة على الشبكة لكي تستطيع القيام بمهام محددة مثل تحديد أفلام الأنيمي الإباحية التي تحتوي على أعضاء غير بشرية والتي تمتلك صفات مميزة تختلف جداً عن الصور العادية.

مع كل ما يجب أن يطرأ عليها من تحسينات وتطوير، فإن الشبكات العصبية الآلية هذه قد استطاعت القيام بثورة حقيقية في عالم معالجة الصور، انطلاقاً من البحث عن تحديد الأنماط في الصور إلى توفير الرؤية للسيارات ذاتية القيادة، ويعتبر تحديد المحتوى الجنسي أحد أبرز وأوضح تطبيقات تلك الشبكات.

هل تساءلت يوما كيف يتمكن الحاسوب (الكمبيوتر) من تحديد الصور الفاضحة والمواد الإباحية والتعرف عليها؟

اقرأ أيضاً

اقرأ أيضاً