fbpx
العودة إلى الدورة التدريبية

Data Cleaning باستخدام مايكروسوفت إكسل

0% اكتمل
0/0 خطوات
  1. مقدمة في تنظيف البيانات
    محددات جودة البيانات
  2. التعرف على الأخطاء الشائعة في سجلات البيانات
  3. معاينة تنسيق المدخلات في سجل البيانات
    التأكد من صيغة ملف العمل
  4. التخلص من الهوامش الزائدة في جدول البيانات
  5. التخلص من الصفوف والأعمدة المخفية والفارغة
  6. إظهار أوراق العمل المخفية
  7. معاينة ومعالجة الأخطاء الهيكلية
    التعرف على الخلايا ذات التنسيق النصي والرقمي
  8. التعرف على الخلايا التي تحتوي على معادلات
  9. التعرف على الخلايا التي تحتوي على أخطاء
  10. تحديد وتلوين وتعبئة الخلايا الفارغة
  11. تحديد ومعاينة وحذف المدخلات المتكررة
  12. حلول تقنية لمعالجة مشكلات متنوعة في البيانات
    البحث والاستبدال
  13. حذف المسافات الزائدة غير المرغوب فيها
  14. معالجة وتوحيد كتابة المدخلات النصية
  15. فصل المدخلات إلى أعمدة وفقًا لمحدد معين
  16. فصل المدخلات إلى أعمدة وفقًا لعدد أحرف محدد
  17. فصل المدخلات من خلال خاصية التعبئة التلقائية
  18. إعادة ضبط وتنسيق التاريخ
  19. حساب الفرق بين تاريخين
  20. تحديات متنوعة لمعالجة وتحليل البيانات
    التحدي الأول: إنشاء عمود جديد من خلال دمج المدخلات في عدة خلايا
  21. التحدي الثاني: حساب المتوسط للمجموعات الفرعية
  22. التحدي الثالث: إنشاء قائمة فريدة لعدد من المدخلات النصية
  23. التحدي الرابع: تحديد أكثر اسم تكرارًا
  24. التحدي الخامس: تحديد أعلى 10 قيم
  25. حالات تطبيقية على تنظيف البيانات
    دراسة حالة - قاعدة بيانات الباخرة تايتنك
  26. دراسة حالة - قاعدة بيانات الجريمة
درس 1 من 26
في تقدم

محددات جودة البيانات

عمرو العراقي 21 أبريل، 2024

يشير مصطلح جودة البيانات إلى الحالة التي تظهر عليها المتغيرات النوعية أو الكمية في سجل البيانات. تعتبر البيانات عالية الجودة إذا كانت “مناسبة للاستخدام في عمليات اتخاذ القرار والتحليل، ومع زيادة حجم البيانات، تصبح مسألة اتساق البيانات مهمة، بغض النظر عن مدى ملاءمة الاستخدام لأي غرض معين.

من الضروري أن تتحقق من جودة البيانات قبل أن نبدأ في مرحلة تحليلها،  للتأكد من ما إذا كان هناك أي أخطاء في مجموعة البيانات. فمن السهل للغاية أن ترتكب أخطاء عند إدخال البيانات، بل أن بعض الأخطاء للأسف قد تؤدي إلى عدم إتمام التحليلات بالشكل الصحيح. لو قمت- مثلًا- بإدخال 35 بدلًا من  في 3 في أحدى خلايا البيانات، فإن ذلك يؤدي إلى نتائج غير صحيحة تمامًا عند اجراء المعادلات الحسابية.

والمعروف أن بعض التحليلات تتسم بالحساسية الشديدة، لذا، من المهم تخصيص جزء من الوقت للتحقق من وجود الأخطاء في البداية بدلًا من محاولة تصحيحها في وقت لاحق. على الرغم من أن هذه العملية قد تبدو مملة ومرهقة إذا كانت لديك مجموعات كبيرة من البيانات، فإنها تعد عملية جوهرية، وستوفر عليك كثيرًا من الجهد فيما بعد.

يتم تحديد جودة البيانات من خلال عوامل مثل الدقة والاكتمال و الموثوقية والملاءمة ومدى تحديثها.

الصلاحية

هل البيانات موجودة بالتنسيق الصحيح؟

تتعلق صلاحية البيانات بتخزين البيانات بالنوع والشكل الصحيحين، وكذلك ضمن النطاق الصحيح. على سبيل المثال، إذا كان أحد الأعمده بسجل البيانات يحمل عنوان بريدًا إلكترونيًا، فيجب أن تحتوي قيمة البيانات على الرمز “@”؛ وإذا كان تاريخًا، فيجب أن يتبع تنسيق تاريخ محدد؛ وهكذا. من المهم أن تتوافق البيانات مع هذه المعايير حتى يمكن اعتبارها صالحة. البيانات غير الصالحة – حتى لو كانت دقيقة أو كاملة – لا يمكن مطابقتها أو تحويلها دون تنظيفها.

الاكتمال

هل بياناتك شاملة كما تحتاجها؟

يتعلق الاكتمال بوجود جميع المدخلات الأساسية  في سجل البيانات، تغيب بعض المدخلات في سجل البيانات لعدة أسباب أبرزها عدم القدرة في الوصول إليها عند إنشاء قاعدة البيانات، مثل عدم القدرة على معرفة أعمار كافة المشاركين في مسابقة رياضية ما، أو أن هذا المدخلات كانت متوفرة لكنها وقعت سهوًا أثناء إدخال البيانات إلى أحد برامج معالجة البيانات.

قد تؤدي البيانات المفقودة إلى اتخاذ قرار بالتخلي عن أحد الأعمدة الرئيسية في سجل البيانات نظرًا لأنه يحتوي على العديد من الخلايا الفارغة وبالتالي يصعب استنتاج أي دلالات دقيقة من تحليل سجل البيانات.

التفرد

هل البيانات خالية من المدخلات المكررة؟

إلى جانب القواعد المذكورة أعلاه، تضمن جودة البيانات تفرد البيانات، مما يعني عدم وجود مدخلات مكررة في مجموعات البيانات الخاصة بك. يمكن أن تقودك التكرارات إلى وضع افتراضات خاطئة حول بياناتك.

الدقة

هل البيانات ضمن النطاق المنطقي لها؟

تشكل القيم المتطرفة التي تم ادخالها عن طريق الخطأ ضمن سجل البيانات أحد أهم العوامل التي قد تتسبب في تقليل جودة البيانات، لأنه من المؤكد أن ينتج عنها استنتاجات خاطئة لذا من الضروري أن نقوم بفرز الأعمدة داخل قاعدة البيانات من القيمة الأكبر حتى القيمة الأصغر أو العكس حتى نتأكد من أن البيانات التي يحتويها كل عمود ضمن النطاق المتوقع أن تكون عليه.

مثل فرز عمود العمر، للتأكد من أن العمود لا يحتوي على قيم أكبر من 100 سنة.