fbpx

متى ينبغي أن لا تلقي بما لديك من بيانات في صندوق القمامة؟

متى ينبغي أن لا تلقي بما لديك من بيانات في صندوق القمامة؟

في تدوينة سابقة، تحدثت عن تنظيف البيانات والحالات التي ينبغي عليك التخلص من البيانات وعدم إهدار الوقت بمحاولة تنظيفها وذلك في حال لم يتوفر مصدرها أو التوثيق الكامل للتعديلات التي تمت عليها، أو كانت تفتقد الكثير من المدخلات التي يصعب الحصول عليها وقد يحدث التعويض عنها بأحد الأساليب الاحصائية خلل في توزيعها وفي النهاية إذا كانت البيانات قديمة تخلو من أخر تحديث لها يجعلها غير معبرة عن الظاهرة محل الدراسة.

في هذه التدوينة سوف استعرض الحالات التي يمكن أن تجعلنا نحتفظ بالبيانات من دون التخلي عنها، وهي الحالات التي يمكن فيها معالجة وتنظيف البيانات، أغلب المشكلات تحدث عندما تتخذ البيانات هيكل غير منظم unstructured Data وهي حالة يصبح فيها تحليل البيانات بطريقة فعالة أمر صعب للغاية وينحصر الأمر على تحليلها بالطرق التقليدية حيث أن أغلب برامج تحليل البيانات كبرنامج مايكروسوفت إكسل وغيرها تحتاج لأن تكون البيانات مهيكلة بطريقة منظمة وما نطلق عليه tubular data format.

ولتحقيق ذلك ينبغي عند إنشاء قواعد البيانات يجب مراعاة التالي:

  • أن تكون البيانات مدخلة من جهة اليسار في ورقة العمل.
  • أن يحتوي السطر الأول في سجل البيانات على العنوان الخاصة بكل عمود.
  • أن يحمل كل عمود اسم واحد له مكتوب في خلية واحدة دون دمج مع اي خلية أو صف آخر.
  • عدم ترك مسافات زائدة عند إدخال البيانات، سواء قبل أو بعد.
  • أن تحتوي كل خلية على مدخل واحد مكتوب بصيغة صحيحة وتنسيق صحيح.
  • عدم تنسيق الخلايا بأي حدود أو لون خاص.
  • وضع قيمة أو نص محدد للقيم المفقودة، أي عدم ترك خلايا فارغة.
  • عدم ترك صفوف أو مدة فارغة كليًا بين المدخلات.

وعلى الرغم من حرص الكثيرين من مدخلي البيانات لى اتباع الخطوات السابقة إلا أن هناك أخطاء آخرى من المحتمل أن يقعوا فيها، تؤثر بالطبع على جودة البيانات لكنها لا تعيقنا عن استخدام البيانات في تحليلاتنا، نحتاج فقط إلى بذل جهد لمعالجتها وتنظيفها من هذه الأخطاء، أبرز هذه الأخطاء التي من الممكن معالجتها هي:

كلمات مختلفة جميعها بنفس المعنى

لأن عملية إدخال البيانات تحدث عادة بطريقة يدوية فمن الوارد أن يخطئ مدخل البيانات في كتابة بعض الكلمات التي تتكرر في الملف عن طريق السهو أو الخطأ، ككتابة كلمة “الجيزة” بالهاء أو كتابة أحد الكلمات في مرات برسم الهمزة ومرات أخرى من دون، قد لا تتمكن العين المجردة من اكتشاف هذه الأخطاء بسهولة لكن برامج معالجة البيانات حساسة للغاية لهذا النوع من الأخطاء حيث أنها سوف تتعامل مع كل اختلاف وكأنه مدخل مختلف عن المدخل الآخر رغم أن الاختلاف طفيف ولا يغير من السياق أو المعنى بأي شكل من الأشكال.

في هذه الحالة، تحتاج إلى إيجاد طريقة لوضع معايير لجميع تلك الاستخدامات المختلفة، حتى يتسنى لك حساب البيانات المتعلقة بنفس المسألة، وإلا فإن أي محاولة لاستخدام أدوات مثل الجداول، فإنها ستتعامل مع تلك البيانات باعتبارها أمورًا مختلفة حتى وإن كانت تشير إلى نفس المكان أو الشخص أو المشروع.

استخدام Google Refine هي الأداة الأفضل للتعامل مع هذا النوع من البيانات غير المرتبة، إذ إنها من الممكن أن تجمع بيانات تبدو متشابهة معًا، ما يعمل على تسريع عملية التعديل.

يمكنك بسهولة استخدام المدقق الإملائي لتنظيف الكلمات التي بها أخطاء إملائية في الأعمدة التي تحتوي على تعليقات أو أوصاف. إذا كنت تريد أزاله الصفوف المكررة، يمكنك القيام بذلك بسرعة باستخدام مربع الحوار أزاله التكرارات.

في أوقات أخرى، قد تحتاج إلى التعامل مع عمود واحد أو أكثر باستخدام صيغة لتحويل القيم المستوردة إلى قيم جديدة. علي سبيل المثال ، إذا أردت أزاله المسافات الزائدة، يمكنك إنشاء عمود جديد لتنظيف البيانات باستخدام صيغة TRIM، وتعبئة العمود الجديد، وتحويل صيغ العمود الجديد إلى قيم، ثم أزاله العمود الأصلي.

تعدد الاختصارات

في بعض الأحيان تستخدم الاختصارات ضمن مجموعات بيانات لعرض بعض المعلومات، إما لتوفير مساحة أو لأنها معروفة على نطاق واسع بين مستخدمي البيانات.

وعندما تُستخدم الاختصارات، ينبغي أن يتم تضمين قاموس بيانات أيضًا لجعل فهم البيانات ممكنًا لمن ليسوا على دراية بما ترمز إليه تلك الاختصارات.

إذا جاءت البيانات جميعها في شكل اختصارات وأكواد وكانت المعلومات المطلوبة لفهمها موجودة في ملف مرافق للبيانات، فيمكنك استخدام Google Refine لترتيب البيانات، ويمكنك القيام بذلك أيضًا باستخدام خيار إيجاد واستبدال في مايكروسوفت إكسل، إلا أن Google Refine أسرع.

وجود أكثر من معلومة داخل خلية واحدة

يقع مدخلو البيانات عادة في هذا الخطأ من البداية، حيث يقوموا بإدخال أكثر من معلومة في نفس الخلية، يحدث هذا دائمًا مع بيانات نصية مثل أسماء الأشخاص في سجل البيانات وكذلك عناوينهم أو مع البيانات العددية مثل المبالغ واختصار العملة، من الأفضل أن يتم ادخالهم بشكل منفصل في اعمدة مستقلة متجاورة بحيث يكتب الاسم الأول في عمود ولقب العائلة في عمود آخر كذلك العناوين يكتب اسم الشارع والمدينة والدولة كلا في عمود مستقل.

يمكن إصلاح الأمر بسهولة باستخدام عدد من الخصائص في برنامج مايكروسوفت إكسل مثل خاصية FLASH FULL والتي تقوم بمحاكاة عملية التعبئة بشكل تلقائي بعد أن تقوم بتنفيذها يدويًا لمرتين على الأكثر حيث يتنبأ البرنامج بسلوكك ويحاكي نفس الخطوات سواء في فصل المدخلات أو دمجها، هناك أيضًا خاصية TEXT TO COLUMN والتي تقوم بتقسيم المدخلات بحسب العلامة الفاصلة بين كل معلومة والأخرى والتي من الممكن أن تكون علامة الفصلة أو مسافة أو أي رمز آخر، كما يمكن استخلاص جزء من المدخلات في الخلية باستخدام معادلات مثل  LEFT-MID-RIGHT

وجود بعض البيانات مكررة

من ضمن الأخطاء التي تتكرر بكثرة في سجلات البيانات هو وجود بعض المدخلات المتكررة عن طريق الخطأ، والتي من الممكن اكتشافها بسهولة من خلال تبويب data ومن قسم data tools نختار remove duplicate لحذفها بشكل نهائي.

وهنا ينبغي أن نفرق بين نوعين من التكرارات، الأول لا يمكن اعتباره خطأ وذلك لأن التطابق وارد في الكثير من المدخلات مثل حالات تشابه الأسماء أو عندما يكون التكرار يمثل واقعة مختلفة عن شبيهاتها في أحد العناصر مثل أن يقوم شخص بأكثر من جريمة في أوقات متفرقة أو أن يصاب شخص بمرض معيد في أوقات مختلفة.

أما النوع الثاني فهو في حالة التطابق الكلي، دون وجود أي اختلاف يصنع فارق بين كل مشاهدة والأخرى وهنا يكون التكرار خطأ يجب التخلص منه والإبقاء على حالة واحدة فريدة فقط.

وجود بعض البيانات المفقودة

هناك عدد من الحلول المختلفة لمعالجة هذا الأمر:

  • تعبئة البيانات المفقودة يدويًا في حال ما إذا كنا نعرف القيم المفقودة على وجه التحديد.
  • استبدال الخانات المفقودة بقيمة ثابتة أو تسمية موحدة مثل “غير معلوم”.
  • استخدام أحد قيم مقاييس النزعة المركزية بدلًأ من القيم المفقودة، مثل المتوسط الحسابي على سبيل المثال.
  • استخدام أحد قيم مقاييس النزعة المركزية لفئة البيانات التي تنتمي لها القيم المفقودة. وهو الاختيار الأقرب للدقة.

مقالات ذات صلة

متى ينبغي أن تلقي بما لديك من بيانات في صندوق القمامة؟

بالتأكيد سمعت هذه العبارة من قبل Garbage in garbage out، والتي تعني أن المدخلات الرديئة تقود لمخرجات رديئة بالضرورة، وكذلك هو الحال في علم البيانات، فأن البيانات الردئية ستقودك إلى تحليلات خاطئة وبالتالي تؤدي بك إلى اتخاذ قرارت غير سليمة، لذا يتوجب عليك تجنب الوصول لهذه النهاية والتخلي عن ما لديك من بيانات رديئة بإلقاءها في صندوق القمامة.

التعليقات