في هذة الدراسة التطبيقية، نطبق على كل ما تعلمناه سابقًا من مهارات لتنظيف مجموعة البيانات في برنامج الإكسل ، لذا يجب تحميل البيانات من قسم الموارد الموجود بأعلى وصف الدورة التدريبية.
تبدو قاعدة البيانات منظمة وبسيط، فهي مكونة من ورقة عمل واحدة worksheet تحتوي على أكثر من 18 ألف خلية و1309 صف يمثل كل صف بيانات راكب واحد من ركاب الباخرة و14 عمود يمثل كل عمود متغير مختلف كعمر الراكب والميناة الذي صعد منه على متن الباخرة وغيرهم من المتغيرات. وبتصفح البيانات سنجد أنها تنقسم الي بيانات كمية كعدد الأقارب من الأبناء والأباء وأرقام جثمان الغرقى، وبيانات وصفية مثل النوع الجندري للراكب وتحديد حالته إذا كان من الناجين أم الغرقى.
في أغلب الحالات تتوفر البيانات المجموعة من قبل أشخاص أخرين مصحوبة بملف تعريفي أو ورقة عمل تحتوي على البيانات التوصيفية الشارحة للمختصارات وطرق الحساب، وهي ما ليس متوفر مع هذ البيانات، لذا يفضل أن ننشئ دليلنا الخاص في فهم البيانات، ويفضل تدوين ذلك في ورقة عمل جديدة في ملف الإكسيل ذاته.
اسم العمود | التوصيف | نوع البيانات | عدد الفئات |
pclass | فئة التذكرة (1 =درجة أولى/ 2=درجة تانية/ 3=درجة ثالثة) | وصفي | 3 |
survived | حالة الركاب (1= ناجي/ 0= غارق) | وصفي | 2 |
name | اسماء الركاب | وصفي | 1309 |
sex | الجنس (ذكر/ أنثى) | وصفي | 2 |
age | عمر الركاب *عمر الأطفال أقل من سنة = العمر بالشهور على 12 | رقمي | أقل من 1حتي 80 سنة |
SibSp | عدد الأخوة و / أو الأزواج على متنها | رقمي | من صفر حتى 8 |
parch | عدد الوالدين و / أو الأطفال على متن | رقمي | من صفر حتى 9 |
ticket | رقم التذكرة | رقمي | |
fare | سعر االتذكرة (الجنيه البريطاني) | رقمي | |
cabin | رقم المقصورة | رقمي | A- B- C |
embarked | ميناء المغادرة | وصفي | 3 |
boat | رقم قارب النجاة | رقمي | |
body | رقم تعريف الجسم في حالة غرقه والعثور على جثمانه | رقمي | |
home.dest | عنوان الركاب | وصفي | 48 |
وفي حالة بيانات الباخرة تايتانك التي نحن بصددها الآن، فأن جميع الأخطاء يالمتواجدة بجدول البيانات يمكن معالجتها وتنظيفها باستخدام حلول بسيطة للغاية متوفرة في برنامج مايكروسوفت إكسل، يوضح الجدول التالي نوع الأخطاء وكيفية معالجتها:
المشكلة | توصيفها | طريقة الحل |
تنسيق الأعمدة غير متوافق مع طبيعة المحتوى المدرج بها | بالوقوف مثلا على آي عمود في جدول البيانات، سنجد أن الخانة التي تظهر في قسم Number في القائمة الرئيسية لبرنامج إكسيل تظهر على نحو General ، في حين أن الأدق أن يظهر بدلًا منها Text في الأعمدة التي تحتوي على نصوص وNumbers في الأعمدة التي تحتوي على أرقام | المرور على كل عمود وإعادة تنسيقه من خلال قسم Numbers في القائمة الرئيسية واختيار توصيف لكل عمود يناسب طبيعة المدخلات به |
فصل أجزاء من المدخلات في أعمدة جديدة مستقلة | لاحظ أن العمود الخاص بأسماء الركاب يحتوي على ثلاث مدخلات مختلفة هما: الأسم الأول واللقب واسم العائلة. والقاعدة في برنامج إكسيل تنص على أن كل خلية واحدة ينبغي أن تحتوي على مدخل واحد. | هنا يمكن استخدام خاصية تحويل النص إلى أعمدة، والتي تتيح لنا تقسيم المخلات في أعمدة جديدة مستقلةمن خلال تحديد وسيلة الفصل بين المدخلات، بحسب العلامة التي تفصل بينهم، إذا كانت فصلة أو مسافة وشي آخر. |
تعديل الاختصارات | تحتوي البيانات على عدد من الاختصارات خاصة في العمود الأول والثاني، حيث تظهر الدرجات السياحية في صيغة رقمية، فيعكس الرقم 1 ركاب الدرجة السياحية الأولى و2 الدرجة السياحية الثانية وهكذا، كما يأخذ الغرقي ترميز 0 بينما الناجيين ترميز 1 في العمود الثاني الخاص بحالة الراكب. وهي اختصارات معبر لكنها غير فعالة حيث أن طبيعة المدخلات في هاذا العمودان هما بيانات وصفية وليس بيانات رقمية فلا جدوى من جمع كافة الأصفار للركاب الغرقى لأن المحصلة ستكون بالتأكيد صفر. | يمكن معالجة الأمر بعدة طرق، أبسطها هو فلترة كل عمود وفقا للقيم المدرجة فيه ويتم استبداله بالكلمة المناسبة للتعبير عنه. مثلا أن يتم فلترة العمود الأول واختيار رقم 1 فقط ومن ثمن استبدال واحد بكلمة “الدرجة السياحية الألولى” وهكذا تباعًا مع كافة الأعمدة التي تحتوى على ترميزات غير منطقية. |
البيانات المفقودة | يحتوى عمود العمر على العديد من القيم المفقودة والتي تصعب عملية التحليل المستقبلي الذي يعتمد على متغير العمل كمتغير رئيسي في عملية التحليل | لتحديد حجم القم المفقودة في كل عمود يمكن استخدام معادلة countblank بنهاية كل عمود لحصر عدد ما فيه من خلايا فارغة، على سبيل المثال ستكون المعادلة على النحو التالي في نهاية العمود الأول من البيانات: =countblank)A1:A1309) ثم بعد ذلك، سحب المعادلة على نحو عرضي لتكرارها بنهاية كل عمود من أعمدة البيانات، هناك 9 أعمدة المحصلة بهم صفر وهو ما يعني أنه لا يوجد بهم بيانات مفقودة، بينما تتباين الأرقام في 5 أعمدة هم العمر ورقم الكابينة ورقم الجثمان ورقم القارب وأخيرًا عنوان الراكب. |