fbpx

متى ينبغي أن تلقي بما لديك من بيانات في صندوق القمامة؟

تنظيف البيانات

بالتأكيد سمعت هذه العبارة من قبل Garbage in garbage out، والتي تعني أن المدخلات الرديئة تقود لمخرجات رديئة بالضرورة، وكذلك هو الحال في علم البيانات، فأن البيانات الردئية ستقودك إلى تحليلات خاطئة وبالتالي تؤدي بك إلى اتخاذ قرارت غير سليمة، لذا يتوجب عليك تجنب الوصول لهذه النهاية والتخلي عن ما لديك من بيانات رديئة بإلقاءها في صندوق القمامة.

لأننا في أغلب الحالات نحصل على ما نريده من بيانات من مصادر مختلفة، ولم نكن طرفًا في عملية جمع وادخال البيانات، فقد تأتي إلينا في صيغ لا تتناسب مع ما نأمل أن ننطلق منه بمرونة ويسر، نظرًا لأن المؤسسات التي قامت بجمعها تعتمد أنظمة وأساليب مختلفة لأرشفة وتخزين قواعد البيانات، كما أن الأخطاء دائمًا ما تحدث أثناء مرحلة إدخال البيانات، كالأخطاء الكتابية أو الأخطاء في إجراء المعادلات والدوال المختلفة. لذا تأتي أهمية مرحلة تنظيف البيانات والتي قد تقضي فيها وقت أطول مما تقضيه في مرحلة تحليل البيانات.

في دورة تنظيف البيانات باستخدام مايكروسوف إكسل، المقدمة من مدرسة البيانات، تحدثت عن مفهوم جودة البيانات والمعايير التي تضمن تحقيقها، مثل الصلاحية والاكتمال والتفرد، وفي درس مجاني من هذه الدورة استعرضت الأخطاء الشائعة في ملفات البيانات التي يمكن معالجتها، منها على سبيل المثال:

  • الأخطاء في الخلايا
  • التكرارات الخاطئة
  • الأخطاء الكتابية
  • المدخلات المجمعة في خلية واحدة
  • وحدت قياس غير موحدة
  • تنسيقات مختلفة للمدخلات أو خاطئة
  • مدخلات بلغات مختلفة

يمكن معالجة مثل هذه الأخطاء باستخدام خصائص برنامج مايكروسوف إكسل، كما انها من النادر أن تتواجد كلها في ملف واحد نظرًا لمعرفة مصدر البيانات بأهمية مراعاة تجنب حدوثها أثناء عملية جمع البيانات، لكن الأخطاء التالية هي التي لا تتطلب منك جهدًا في معالجتها حيث يصعب التدخل لايجاد حل لها، فهي ليس أخطاء في عملية الادخال، بينما أغلبها أخطاء في منهجية البيانات، مثل:

بيانات لا يمكن تعقب مصدرها

عندما تجد ملف إكسل يحتوي على بيانات على شبكة الإنترنت أو مرسل إليك في رسالة بريدية لا تترد في الكشف عن ما فيه من مدخلات حتى وإن كان قد وصل إليك من مصدر مجهول، تصفحها من باب الفضول وامنحها فرصة أخيرة للثقة فيها. وعندما تتصفحها ابحث عن ورقة عمل تحمل اسم “Metadata” اي البيانات التوصيفية التي يسجل فيها مصدر البيانات منهجية جمعها وتاريخ الجمع والكيفية التي جٌمعت بها، وتاريخ أخر تحديث تم عليها وإلى أخره من معلومات تتعلق بالبيانات نفسها، كتعريف الاختصارات أو دلالات المؤشرات المستخدمة.

ابحث أيضًا عن لملف يحمل اسم “Data Dairy” اي يوميات البيانات، والذي يؤرشف فيه ناشر سجل البيانات التعديلات التي أجراها على الملف سواء استحدث نتائج جديدة جراء معادلات حسابية قام بها أو أضاف أو حذف مدخلات معينة لأهداف تتعلق بعمله على الملف، يكشف سجل يوميات البيانات عن الاختلاف التي استحدثت على الملف عن نسخته الأصلية.

وإذا كان من الصعب أن تجد مثل هذه المعلومات في ملف البيانات فتخلى عنه فورًا، فلا يمكن أن تتعامل مع بيانات أنت لا تفهم ما تعنيه المؤشرات المستخدمة فيه ولا تعرف ما إذا تم اجراء تعديلات عليها أم لا كما أن مصدرها مجهول بالنسبة لك ولا يمكن الوصول إليه أو التواصل معه مباشرة للايجابة على اسئلتك حول البيانات.

البعض يقرر عكس ذلك، ويبقى على البيانات محاولًا التحقق مما جاء فيها، من خلال عمليات البحث العكسي على محركات البحث أو من خلال أساليب التحقق الأكثر كلفة مثل التجربة الشخصية أو التقصي، قد يفلح الأمر مع مجموعة من المدخلات في الملف لكنه لا يعني ان كافة المدخلات الآخرى التي تندر التأكد منها صحيحة، وفي النهاية يكون القرار التخلي عن البيانات نظرًا لصعوبة العثور على مصدرها أو مصدر آخر يؤكد ما فيها.

بيانات غير محدثة

ونحن نقترب من نهاية عام 2022، فهل إذا حصلت على بيانات لا تحتوي على تحديث بعد عام 2018، فهل تنصرف عنها وتلقي بها في القمامة؟، البعض قد يفعل ذلك، لكن عليك أن تتحقق أول من موعد تحديث المؤشرات التي تعكسها البيانات فقد يكون أخر حديث لها بالفعل هو عام 2018، كتعداد السكان على سبيل المثال، هل تعتقد أن الجهات التي تقوم بحصر السكان في كل بلد تفعل ذلك كل عام؟، بالطبع لا، في الغالب يتم حصر السكان مرة كل ثلاث سنوات أو خمس سنوات نظرًا للجهد الذي يتطلبه جمع مثل هذه البيانات، لذلك إذا حصلت على بيانات عن تعداد السكان فحاول أن تبحث أولًا عن أخر مرة تم فيها هذا المسح من خلال أرشيف الأخبار مثلًا لتحدد إذا ما كان مسح عام 2021 تم بالفعل أم لا.

وفي حال البيانات التي تحدث سنويًا، يمكن أن نعتبر نسختها من عامين نسخة حديثة إذا كانت البيانات تعكس مؤشرات لا تتغير بشكل ملحوظ بين العام والآخر، فإذا كانت البيانات تتحرك في نطاق محدود تاريخيًا فمن الممكن أن نستند إلى ما هو منشور منها منذ عامين لأنها على الأغلب ستكون في نفس النطاق أو تحركت بنسب طفيفة نحو الصعود أو التراجع، مثل مؤشرات البطالة مثلًا التي تتحرك بشكل طفيف كل عام ما دام لم يحدث حدث طارئ يغير من مسارها بشكل ملحوظ.

بخلاف ذلك، يمكن أن تلقي بالبيانات غير المحدثة في سلة القمامة وأنت مطمئن لأنها لم تكن تفيدك في تحليلك ولم تكن تقودك إلى اكتشاف معلومات مفيدة، فإذا كان المؤشرا يتحرك بتباين مستمر وبنمط غير مستقر يصعب تحديد نطاقه فأننا لا يمكن أن نعتمد على نسخة قديمة منه حتى ولو عامين لأنه على الأغلب قد تغير الآن وأصبح عند نقطة تبعد عن ما كانت عليه العام الماضي، كذلك إذا كانت البيانات تجمع وتحدث بصفة دورية كل 3 أو 5 سنوات وأنت بين يديك إصدار لتحديث لدورتين ماضييتين، وفشلت في الحصول على أحدث أصدار منها فألقي بها في القمامة أو أحتفظ بها إذا كنت متأكدًا إنه من السهل أن تحصل على تحديثها في المستقبل إذا كنت مهتمًا ببناء سلسلة زمنية طويلة من هذا المؤشر للعمل عليها في المستقبل.

بيانات تخطت نسبة المدخلات المفقودة فيها 50%

يتعلق الاكتمال بوجود جميع المدخلات الأساسية  في سجل البيانات، وقد تغيب بعض المدخلات في سجل البيانات لعدة أسباب أبرزها عدم القدرة في الوصول إليها عند إنشاء قاعدة البيانات، مثل عدم القدرة على معرفة أعمار كافة المشاركين في مسابقة رياضية ما، أو أن هذا المدخلات كانت متوفرة لكنها وقعت سهوًا أثناء إدخال البيانات إلى أحد برامج معالجة البيانات.

يمكن تقسيم البيانات المفقودة وفقاً للأسباب التي تؤدّي إلى حدوثها إلى ثلاثة أنواع رئيسة :بيانات مفقودة عشوائياً بشكل تام وبيانات مفقودة عشوائيًا وبيانات غير مفقودة عشوائيًا. وهنا ارشح لكم مشاهدة هذا الفيديو لـ Mikko Rönkkö وهو أستاذ في كلية إدارة الأعمال والاقتصاد بجامعة يوفاسكولا ، والذي يستعرض خلاله أنواع الفقد فس سجلات البيانات والتي تأخذ أنماط عديدة، منها مثلًا:

الببانات المفقودة
الببانات المفقودة
  • الفقد في عمود محدد عند مشاهدة محددة حتى النهاية، وهي أن يحدث فقد للمدخلات عن مشاهدة معينة في عمود محدد في سجل البيانات ويستمر هذا الفقد حتى نهاية المدخلات في الملف، حيث يصعب الحصول على هذه المدخلات وتوثيقها في الملف لأسباب تتعلق بجمع البيانات.
  • ونوع أخر يعرف بانتهاء الفقد في عمود عند بداية الفقد في عمود أخر، وهنا يحدث نوع من أنواع الارتباط بين القيم المفقودة حيث تصبح قيمة مفقودة في حال توافر قيمة معينة والعكس، فمثلًا أثناء جمع البيانات في استطلاع للرأي قد يفضل البعض عدم الافصاح عند دخلهم الشهري ولا يفصحون عن ممتلاكتهم بينما يفضل البعض الآخر عكس ذلك.
  • والنوع الآخر هو الفقد غير المنتظم في كافة الأعمدة، كان يحث الفقد بشكل عشوائي في أعمدة الملف دون أرتباط أو دون قدر متساوي في حجم القيم المفقودة بكل عمود، فنجد أن القيم المتوفرة حول مشاهدة معينة تختلف عن القيم المتوفرة حول مشاهدة آخرى في سجل البيانات.

قد تؤدي البيانات المفقودة إلى اتخاذ قرار بالتخلي عن أحد الأعمدة الرئيسية في سجل البيانات نظرًا لأنه يحتوي على العديد من الخلايا الفارغة وبالتالي يصعب استنتاج أي دلالات دقيقة من تحليل سجل البيانات.

هناك معادلة في برنامج مايكروسوفت إكسل تساعد على تحديد حجم القم المفقودة في كل عمود ، هي معادلة countblank والتي يمكن تطبيقها بنهاية كل عمود لحصر عدد ما فيه من خلايا فارغة.

وعلى الرغم من أن هناك العديد من الطرق التي يمكن بها معالجة القيم المفقودة، لكن قبل أن نقرر اي منها سنتتبع يبغي التفكير في هل نحن بحاجة لمعالة الأمر أم الافضل هو الاستغناء عن أعمدة البيانات التي تحتوي علي بيانات مفقودة. هناك قاعدة يتم العمل بها في هذا الأمر تسمى بقاعدة 50% – وأحيانًا أقل من ذلك – وهي تنص على استبعاد أعمدة البيانات التي تفتقد ل 50% أو أكثر من مدخلاتها لأن بالتأكيد نتائج تحليل ما هو متوفر من مدخلاتها سوف يعطي نتائج مشوشة لا تعطي دلالات صحيحة ممثلة لحجم البيانات الكلي.

تخيل الأمر، وكأنك تستطلع آراء 100 شخص حول متوسط دخلهم الشهري وقرر 50% من العينة عدم الافصاح عن دخلهم الشهري، فبالتالي سيصبح حجم ما حصلت عليه من إجابات ممثل فقط ل 50% من العينة المستطلعة ولا يعكس حجم دخل العينة بأكملها.

مقالات ذات صلة

التعليقات