fbpx
العودة إلى الدورة التدريبية

Data Cleaning باستخدام مايكروسوفت إكسل

0% اكتمل
0/0 خطوات
  1. مقدمة في تنظيف البيانات
    محددات جودة البيانات
  2. التعرف على الأخطاء الشائعة في سجلات البيانات
  3. معاينة تنسيق المدخلات في سجل البيانات
    التأكد من صيغة ملف العمل
  4. التخلص من الهوامش الزائدة في جدول البيانات
  5. التخلص من الصفوف والأعمدة المخفية والفارغة
  6. إظهار أوراق العمل المخفية
  7. معاينة ومعالجة الأخطاء الهيكلية
    التعرف على الخلايا ذات التنسيق النصي والرقمي
  8. التعرف على الخلايا التي تحتوي على معادلات
  9. التعرف على الخلايا التي تحتوي على أخطاء
  10. تحديد وتلوين وتعبئة الخلايا الفارغة
  11. تحديد ومعاينة وحذف المدخلات المتكررة
  12. حلول تقنية لمعالجة مشكلات متنوعة في البيانات
    البحث والاستبدال
  13. حذف المسافات الزائدة غير المرغوب فيها
  14. معالجة وتوحيد كتابة المدخلات النصية
  15. فصل المدخلات إلى أعمدة وفقًا لمحدد معين
  16. فصل المدخلات إلى أعمدة وفقًا لعدد أحرف محدد
  17. فصل المدخلات من خلال خاصية التعبئة التلقائية
  18. إعادة ضبط وتنسيق التاريخ
  19. حساب الفرق بين تاريخين
  20. تحديات متنوعة لمعالجة وتحليل البيانات
    التحدي الأول: إنشاء عمود جديد من خلال دمج المدخلات في عدة خلايا
  21. التحدي الثاني: حساب المتوسط للمجموعات الفرعية
  22. التحدي الثالث: إنشاء قائمة فريدة لعدد من المدخلات النصية
  23. التحدي الرابع: تحديد أكثر اسم تكرارًا
  24. التحدي الخامس: تحديد أعلى 10 قيم
  25. حالات تطبيقية على تنظيف البيانات
    دراسة حالة - قاعدة بيانات الباخرة تايتنك
  26. دراسة حالة - قاعدة بيانات الجريمة
درس 25 من 26
في تقدم

دراسة حالة – قاعدة بيانات الباخرة تايتنك

عمرو العراقي 19 مايو، 2024

في هذة الدراسة التطبيقية، نطبق على كل ما تعلمناه سابقًا من مهارات لتنظيف مجموعة البيانات في برنامج الإكسل ، لذا يجب تحميل البيانات من قسم الموارد الموجود بأعلى وصف الدورة التدريبية.

تبدو قاعدة البيانات منظمة وبسيط، فهي مكونة من ورقة عمل واحدة worksheet تحتوي على أكثر من 18 ألف خلية و1309 صف يمثل كل صف بيانات راكب واحد من ركاب الباخرة و14 عمود يمثل كل عمود متغير مختلف كعمر الراكب والميناة الذي صعد منه على متن الباخرة وغيرهم من المتغيرات. وبتصفح البيانات سنجد أنها  تنقسم الي بيانات كمية كعدد الأقارب من الأبناء والأباء وأرقام جثمان الغرقى، وبيانات وصفية مثل النوع الجندري للراكب وتحديد حالته إذا كان من الناجين أم الغرقى.

في أغلب الحالات تتوفر البيانات المجموعة من قبل أشخاص أخرين مصحوبة بملف تعريفي أو ورقة عمل تحتوي على البيانات التوصيفية الشارحة للمختصارات وطرق الحساب، وهي ما ليس متوفر مع هذ البيانات، لذا يفضل أن ننشئ دليلنا الخاص في فهم البيانات، ويفضل تدوين ذلك في ورقة عمل جديدة في ملف الإكسيل ذاته.

اسم العمودالتوصيفنوع البياناتعدد الفئات
pclassفئة التذكرة  (1 =درجة أولى/ 2=درجة تانية/ 3=درجة ثالثة)وصفي3
survivedحالة الركاب  (1= ناجي/ 0= غارق)وصفي2
nameاسماء الركابوصفي1309
sexالجنس (ذكر/ أنثى)وصفي2
ageعمر الركاب *عمر الأطفال أقل من سنة = العمر بالشهور على 12رقميأقل من 1حتي 80 سنة
SibSpعدد الأخوة و / أو الأزواج على متنهارقميمن صفر حتى 8
parchعدد الوالدين و / أو الأطفال على متنرقميمن صفر حتى 9
ticketرقم التذكرةرقمي 
fareسعر االتذكرة (الجنيه البريطاني)رقمي 
cabinرقم المقصورةرقميA-    B- C  
embarkedميناء المغادرةوصفي3
boatرقم قارب النجاةرقمي 
bodyرقم تعريف الجسم في حالة غرقه والعثور على جثمانهرقمي 
home.destعنوان الركابوصفي48

وفي حالة بيانات الباخرة تايتانك التي نحن بصددها الآن، فأن جميع الأخطاء يالمتواجدة بجدول البيانات يمكن معالجتها وتنظيفها باستخدام حلول بسيطة للغاية متوفرة في برنامج مايكروسوفت إكسل، يوضح الجدول التالي نوع الأخطاء وكيفية معالجتها:­

المشكلةتوصيفهاطريقة الحل
تنسيق الأعمدة غير متوافق مع طبيعة المحتوى المدرج بها  بالوقوف مثلا على آي عمود في جدول البيانات، سنجد أن الخانة التي تظهر في قسم Number في القائمة الرئيسية لبرنامج إكسيل تظهر على نحو General ، في حين أن الأدق أن يظهر بدلًا منها Text في الأعمدة التي تحتوي على نصوص وNumbers  في الأعمدة التي تحتوي على أرقامالمرور على كل عمود وإعادة تنسيقه من خلال قسم Numbers في القائمة الرئيسية واختيار توصيف لكل عمود يناسب طبيعة المدخلات به  
 
فصل أجزاء من المدخلات في أعمدة جديدة مستقلة  لاحظ أن العمود الخاص بأسماء الركاب يحتوي على ثلاث مدخلات مختلفة هما: الأسم الأول واللقب واسم العائلة. والقاعدة في برنامج إكسيل تنص على أن كل خلية واحدة ينبغي أن تحتوي على مدخل واحد.هنا يمكن استخدام خاصية تحويل النص إلى أعمدة، والتي تتيح لنا تقسيم المخلات في أعمدة جديدة مستقلةمن خلال تحديد وسيلة الفصل بين المدخلات، بحسب العلامة التي تفصل بينهم، إذا كانت فصلة أو مسافة وشي آخر.
 
تعديل الاختصارات  تحتوي البيانات على عدد من الاختصارات خاصة في العمود الأول والثاني، حيث تظهر الدرجات السياحية في صيغة رقمية، فيعكس الرقم 1 ركاب الدرجة السياحية الأولى و2 الدرجة السياحية الثانية وهكذا، كما يأخذ الغرقي ترميز 0 بينما الناجيين ترميز 1 في العمود الثاني الخاص بحالة الراكب. وهي اختصارات معبر لكنها غير فعالة حيث أن طبيعة المدخلات في هاذا العمودان هما بيانات وصفية وليس بيانات رقمية فلا جدوى من جمع كافة الأصفار للركاب الغرقى لأن المحصلة ستكون بالتأكيد صفر.يمكن معالجة الأمر بعدة طرق، أبسطها هو فلترة كل عمود وفقا للقيم المدرجة فيه ويتم استبداله بالكلمة المناسبة للتعبير عنه. مثلا أن يتم فلترة العمود الأول واختيار رقم 1 فقط ومن ثمن استبدال واحد بكلمة “الدرجة السياحية الألولى” وهكذا تباعًا مع كافة الأعمدة التي تحتوى على ترميزات غير منطقية.  
 
البيانات المفقودة  يحتوى عمود العمر على العديد من القيم المفقودة والتي تصعب عملية التحليل المستقبلي الذي يعتمد على متغير العمل كمتغير رئيسي في عملية التحليللتحديد حجم القم المفقودة في كل عمود يمكن استخدام معادلة countblank  بنهاية كل عمود لحصر عدد ما فيه من خلايا فارغة، على سبيل المثال ستكون المعادلة على النحو التالي في نهاية العمود الأول من البيانات:
=countblank)A1:A1309)
ثم بعد ذلك، سحب المعادلة على نحو عرضي لتكرارها بنهاية كل عمود من أعمدة البيانات، هناك 9 أعمدة المحصلة بهم صفر وهو ما يعني أنه لا يوجد بهم بيانات مفقودة، بينما تتباين الأرقام في 5 أعمدة هم العمر ورقم الكابينة ورقم الجثمان ورقم القارب وأخيرًا عنوان الراكب.