Image

المشكلة الكبيرة حول البيانات الصغيرة

Bread assortment المقر الرئيسي لوكالة الأمن القومي الأميركية في فورت ميد، ماريلاند.
مصدر الصورة: ويكيميديا كومونز

تعتمد وكالة الأمن القومي في الولايات المتحدة الأميركية على خوارزميات التعلم الآلي بهدف تمييز من يحتمل أن يكونوا إرهابيين في باكستان، ولكنها قد لا تكون فعالة، وذلك بسبب عدم وجود ما يكفي من المعلومات اللازمة للاستدلال على الإرهابيين، وذلك وفقاً لتحقيق أجرته مجلة أرس تيكنيكا يو كي.

يعتمد مشروع وكالة الأمن القومي، والذي أطلق عليه الاسم المشؤوم سكاي نت (كما في أفلام تيرميناتور)، على حركة البيانات في الشبكة الخليوية الباكستانية لتحديد ومراقبة التهديدات المحتملة، وفقاً لوثيقة مسربة في مجلة ذا إنترسيبت. وكما في حالة الكثير من خوارزميات التعلم الآلي التي تتعامل مع البيانات الكبيرة، يتطلب الأمر الملايين من قيم الدخل والمحاولات لمطابقة أنماط معينة. وقد كشفت ذا إنترسيبت عن هذا في 2015، غير أن تحقيق أرس يغوص أكثر في التفاصيل حول الفعالية الحقيقية لهذا البرنامج.

يشبه هذا تقنيات التعلم الآلي المستخدمة من قبل الشركات التكنولوجية للتحكم بمعظم ما نراه على الإنترنت. حيث يعتمد فيسبوك على التعلم الآلي لتقييم المنشورات، كما بدأت شركة جوجل باستخدامه في البحث.

ولكن هذه التقنيات لا تعمل بشكل فعال وموثوق إلا إذا تم تدريب الآلة مسبقاً على الكثير من الأمثلة حول النمط الصحيح المطلوب. وفي هذه الحالة، يمكن أن يتضمن النمط الصحيح المواضع الجغرافية، وسلوكيات مريبة مثل تبديل الهواتف الخليوية بكثرة، وتلقي الاتصالات فقط بدون إجرائها. وقد قال باتريك بول- مدير البحث في مجموعة حقوق الإنسان لتحليل البيانات- لأرس تيكنيكا أن البيانات المستخدمة مشوشة لدرجة لا يمكن الاعتماد عليها لإعطاء نتائج دقيقة.

يقول بول: “أولاً، لا يوجد من (الإرهابيين المعروفين) الذين يمكن استخدامهم لتدريب واختبار النموذج سوى عدد قليل للغاية، وإذا كانوا يستخدمون نفس السجلات لتدريب واختبار النموذج، فإن نتائج التقييم لديهم عبارة عن هراء”.

يستخدم مشروع سكاي نت بيانات من سبعة إرهابيين معروفين فقط

يقول بول أن مشروع سكاي نت يستخدم لاختبار النموذج بيانات من سبعة إرهابيين معروفين فقط، إضافة إلى عينات عشوائية من 100,000 مستخدم للهواتف الخليوية. ولاختبار هذه الخوارزمية، تعرض عليها وكالة الأمن القومي ستة من الأنماط السبعة المعروفة للإرهابيين، ومن ثم تعرض عليها جميع الأنماط الطبيعية، ومن ثم تكلف الخوارزمية بالعثور على نمط الإرهابي السابع المخبأ بين كل هذا التشويش. يتم إجراء الحسابات على 80 متحول لكل مستخدم للخليوي، وتمتلك وكالة الأمن القومي سجلات لـ 55 مليون مستخدم، وفقاً لعرض تقديمي منها. غير أنه يوجد في باكستان أكثر من 180 مليون مواطن، ما يجعل من هذه البيانات ناقصة في أحسن الأحوال.

يمكن استخدام التعبير (ناقصة في أحسن الأحوال) لوصف النتائج أيضاً. حيث تحصل وكالة الأمن القومي على نسبة 0.18% من الإنذارات الخاطئة، وذلك في حال إهمال نصف إجمالي التهديدات المحتملة. وتقول إحدى شرائح العرض التقديمي حرفياً: “يمكن للخوارزميات الإحصائية أن تعثر على الإرهابيين بمعدل إنذار خاطئ منخفض للغاية، إذا سمح لنا بإهمال نصف الإنذارات”. وبتطبيق البحث على 55 مليون سجل، ينتج حوالي 99,000 إنذار خاطئ.

ولكن كل هذه المعلومات تعتمد على الشرائح التي صيغت في 2011 أو 2012. كما أنه ليس لدينا أدنى فكرة عما إذا كان تم تنقيحها، أو نبذها، أو ما إذا كانت تستخدم اليوم كما كانت في 2011 بإهمال أقل. كما أنها قد تكون مزيفة (على الأرجح أنه ليست كذلك، ولكنه احتمال قائم). ومن المحتمل أن وكالة الأمن القومي الأميركية تمتلك فعلياً أكثر من 55 مليون سجل الآن.

من الجدير بالذكر أننا لا نعرف أيضاً ماذا تفعل وكالة الأمن القومي بهذه البيانات. فمن الممكن أنه يتم وضعها في تقارير لتوجيه ضربات بالطائرات بدون طيار، وعلى الرغم من أن الطائرات بدون طيار الأميركية قتلت عدداً مخيفاً من الباكستانيين يبلغ 3,994 شخصاً منذ 2004، فإنه يبدو أن الحكومة لا تتعامل مع كل تطابق على أنه تهديد.

لا يشكل الاعتماد على الخوارزميات بهذا الشكل مشكلة إذا كانت تقوم بوضع الإشارات على صور فيسبوك، أو بتحديد مشاهدي إعلان ما، ولكن هامش الخطأ الكبير هذا يؤدي إلى نتائج كارثية عندما تكون الأرواح على المحك. يقول بول: “هذه التقنيات خاطئة التنفيذ وتستخدم لأغراض سيئة، بدون شك”.

error: Content is protected !!