fbpx

كيف يمكن أن نتعلم صحافة البيانات من خلال قاعدة بيانات “تايتانك”

تعلم صحافة البيانات من سفينة تايتانك الغارقة

استخدمت قاعدة بيانات الباخرة الغارقة تايتنك في كافة التدريبات والمحاضرات التي ألقيتها على مدار السنوات الخمس الماضية، كمثال للشرح أو كمادة خام لاختبار مهارات المتدربين، فهي مناسبة للتدريب على جوانب عدة سواء البحث المتقدم على محركات البحث أو في تنظيم وتنظيف البيانات أو تحليلها باستخدام التنسيق الشرطي والجداول المحورية في مايكروسف إكسيل وكذلك للتدريب على تصميم البيانات وإعداد المخططات البيانية.

وكنت أظن أنها عادة شخصية، حتى التقيت الصحفي البريطاني جونسون ستون مان وعملت معه مدربًا شريكًا لعدة أيام في تونس. وأثناء حديثنا في الليلة التي سبقت اليوم الأول من التدريب حيث كنا نخطط للتطبيقات العملية التي سوف نستخدمها على مدار أيام التدريب القادمة، أقترح جونسون أن نستخدم لعبة الكروت في الجزء الأول من التدريب لنحفذ المتدربين على التفكير بمنهجية صحفي البيانات في خلق علاقات بين البيانات المتاحة والبحث عن قصص صحفية بداخلها، حيث يختار كل متدرب كرت مدون عليه اسم عمود من أعمدة قاعدة البيانات ويحاور من يجلس الي جواره ويحمل كرتًا مختلفًا من نفس قاعدة البيانات ليفكروا سويًا في القصة التي يمكن أن يصلا اليها في حال توفر لديهم هاذان العمودان فقط. وعندما سألته عن قاعدة البيانات التي سنستخدمها في هذا التطبيق، أجابني “بالطبع تايتانك”.

الطريف في الأمر أنه لم يتثنى لي مشاهدة الفيلم من قبل، لم يدفعني الفضول لذلك. لكني من خلال البيانات تخيلت عدد من المشاهد حول تنوع طبقات ركاب الباخرة وأماكن تواجدهم على سطحها وعن عملية اجلاء الركاب، وهناك الكثير من المشاهد والحكايات التي ربما لم تروى بعد يمكن استخراجها من قاعدة بيانات الركاب، وهو ما دفعني إلى كتابة سلسلة من التدوينات المختلفة لشرح منهجية العمل كصحفي بيانات ومشاركتكم بعض المهارات والتقنيات التي يمكن تطبيقها على قاعدة بيانات ركاب باخرة تايتانك.

هناك عدة اصدارات متاحة على الانترنت لقاعدة البيانات بتنسيقات ومدخلات مختلفة، بعضها يشمل بيانات للركاب وطاقم العمل ويحدد حالة كل منهم بعد وقوع الحادثة وبعضها يتضمن بيانات الركاب فقط ويحتوي على بيانات تحدد جنس الراكب وعمره وعنوان سكنه والمبلغ الذي دفعه نظير التذكرة ونوع الدرجة السياحية لتذكرته، وهي قاعدة البيانات التي أفضل العمل بها دومًا وتحمل اسم Titanic Dataset, v3.5 ويسهل الحصول عليها بعد بحث سريع على محرك جوجل للبحث.

في هذه التدوينة، سوف نبدأ من حيث جدول البيانات لن نتطرق بالحديث عن كيفية البحث على الانترنت أو تجريف البيانات من صفحات الويب ولن اتطرق إلى خطوات التحقق من البيانات ومصدرها، كلها أمور بالطبع على صحفي البيانات أو اي صحفي آخر أن يأخذها بعين الاعتبار عند العمل على بيانات لم يقوم بجمعها بنفسه. لكني خصصت مجموعة التدوينات هذه للحديث عن الخطوات التي تتبع كل هذا العمل بدأ من طرح الأسئلة ومقابلة البيانات ومرورًا بتحليل البيانات لإيجاد قصص صحفية بداخلها حتى تصميم الرسوم البصرية المساعدة في سرد القصة.

استكشاف البيانات

تبدو قاعدة البيانات منظمة وبسيط، فهي مكونة من ورقة عمل واحدة worksheet تحتوي على أكثر من 18 ألف خلية و1309 صف يمثل كل صف بيانات راكب واحد من ركاب الباخرة و14 عمود يمثل كل عمود متغير مختلف كعمر الراكب والميناة الذي صعد منه على متن الباخرة وغيرهم من المتغيرات. وبتصفح البيانات سنجد أنها  تنقسم الي بيانات كمية كعدد الأقارب من الأبناء والأباء وأرقام جثمان الغرقى، وبيانات وصفية مثل النوع الجندري للراكب وتحديد حالته إذا كان من الناجين أم الغرقى.

وحتى نتمكن من استكشاف البيانات على نحو دقيق يفضل أنشاء جدول باستخدام مايكروسوف اكسيل من خلا الضغط على قائمة ادراج واختيار جدول.

  • Insert
  • Table

يوفر الجدول خاصية التنقيح على رأس كل عمود وهو ما يسهر عملية الفرز واعادة الترتيب، ويمكن الاستفادة منها في معرفة نطاق البيانات في كل عمود، فمثلا عن الضغط على السهم الصغير من الظاهر أعلى يسار  عمود الدرجة السياحية سوف نكتشف أن قائمة البيانات تتضمن ثلاث درجات سياحية هي الدرجة الأولى والثانية والثالثة، وأن البيانات مرتبة وفقًا للدرجة السياحية حيث يظهر ركاب الدرجة الأولى تباعًا ثم ركاب الدرجة الثانية ومنبعدها الثالثة.

في أغلب الحالات تتوفر البيانات المجموعة من قبل أشخاص أخرين مصحوبة بملف تعريفي أو ورقة عمل تحتوي على البيانات التوصيفية الشارحة للمختصارات وطرق الحساب، وهي ما ليس متوفر مع هذ البيانات، لذا يفضل أن ننشئ دليلنا الخاص في فهم البيانات، ويفضل تدوين ذلك في ورقة عمل جديدة في ملف الإكسيل ذاته.

اسم العمودالتوصيفنوع البياناتعدد الفئات
pclassفئة التذكرة (1 = درجة أولى/ 2= درجة تانية/ 3= درجة ثالثة)وصفي3
survivedحالة الركاب (1= ناجي/ 0= غارق)وصفي2
nameاسماء الركابوصفي1309
sexالجنس(ذكر/ أنثى)وصفي2
ageعمر الركاب*عمر الأطفال أقل من سنة = العمر بالشهور على 12رقميأقل من 1حتي 80 سنة
SibSpعدد الأخوة و / أو الأزواج على متنهارقميمن صفر حتى 8
parchعدد الوالدين و / أو الأطفال على متنرقميمن صفر حتى 9
ticketرقم التذكرةرقمي 
fareسعر االتذكرة(الجنيه البريطاني)رقمي 
cabinرقم المقصورةرقميA-    B- C 
embarkedميناء المغادرة(C = شيربورغ: س = كوينزتاون: S = ساوثهامبتون)وصفي3
boatرقم قارب النجاةرقمي 
bodyرقم تعريف الجسم في حالة غرقه والعثور على جثمانهرقمي 
home.destعنوان الركابوصفي48

القيم المفقودة

على الرغم من أن البيانات تبدو منظمة ورائعة إلا أن هناك بعض الأعمدة تحتوى على الكثير من الخلايا الفارغة، يمكننا أن نبدأ بالنظر إلى القيم المفقودة ضمن مجموعة البيانات الخاصة بنا. عادةً ما يكون الفحص الفوري السريع كافياً عند العمل مع مجموعة بيانات صغيرة مثل مجموعة البيانات الخاصة بنا. في الواقع ، فقط من خلال تصفح السجلات ، يمكننا تحديد الحقول الثلاثة فقط ذات القيم المفقودة: العمر ، والمقصورة ، والبدء. لتقدير تأثير القيم المفقود.

لتحديد حجم القم المفقودة في كل عمود يمكن استخدام معادلة countblank  بنهاية كل عمود لحصر عدد ما فيه من خلايا فارغة، على سبيل المثال ستكون المعادلة على النحو التالي في نهاية العمود الأول من البيانات:

ü =countblank)A1:A1309)

ثم بعد ذلك، سحب المعادلة على نحو عرضي لتكرارها بنهاية كل عمود من أعمدة البيانات، هناك 9 أعمدة المحصلة بهم صفر وهو ما يعني أنه لا يوجد بهم بيانات مفقودة، بينما تتباين الأرقام في 5 أعمدة هم العمر ورقم الكابينة ورقم الجثمان ورقم القارب وأخيرًا عنوان الراكب.

يفتقد عمود body ما يزيد عن 90% من البيانات وهو العمود الأعلى من حيث حجم البيانات المفقودة، يأتي بعده عمود  Cabin والذي يفقد لحوالي 80٪ من القيم، ثم عمود boat والذي يفقد أكثر من 60% من مدخلاته، يليه عمود home.dest بما يزيد عن 40% وفي المرتبة الأخيرة عمود age والذي يفقد 20% من مدخلاته.

body91%
cabin77%
boat63%
home.dest43%
age20%

هناك العديد من الطرق التي يمكن بها معالجة القيم المفقودة، لكن قبل أن نقرر اي منها سنتتبع يبغي التفكير في هل نحن بحاجة لمعالة الأمر أأم الافضل هو الاستغناء عن أعمدة البيانات التي تحتوي علي بيانات مفقودة. هناك قاعدة يتم العمل بها في هذا الأمر تسمى بقاعدة 30% وهي تنص على استبعاد أعمدة البيانات التي تفتقد ل 30% أو أكثر من مدخلاتها لأن بالتأكيد نتئج تحليل ما هو متوفر من مدخلاتها سوف يعطي نتائج مشوشة لا تعطي دلالات صحيحة ممثلة لحجم البيانات الكلي.

تخيل الأمر، وكانك تستطلع أراى 100 شخص حول متوسط دخلهم الشهري وقرر 30% من العينة عدم الافصاح عن دخلهم الشهري، فبالتلي سيصبح حجم ما حصلت عليه من اجابات ممثل فقط ل 70% من العينة المستطلعة ولا يعكس حجم دخل العينة بأكملها.

واذا قررنا العمل بهذه القاعدة سيكون لدينا عمود واحد من الأعمدة السابقة هو الذي يمكن أن نعمل على ايجاد حل لمعالجة البيانات المفقودة.

في بعض الحالات قد تنجح طرق مثل العودة للمصدر والتواصل معه لمعرفة سبب فقد مجموعة من البيانات أو البحث عن مصدر أخر لقاعدة البيانات ومقارنته بما لدينا لربما كان المصدر الأخر لديه منهجية مختلفة لجمع البيانات ولا تحتوي قاعدة البيانات لديه على هذا الكم من البيانات المفقودة، واذا لم تكن هذه الطرق متاحة علىنا أن نتبع الحل الاحصائي لملأ القيم المفقودة بقيمة متوسطة لمجموعة البيانات.

تحديد بطل القصة

قبل أن نشرع في تنظيم وتحليل البيانات، علينا أن نحدد أخمية المدخلات المتوفرة في قاعدة البيانات، وعادةً ما نقوم بتصنيف أعمدة البيانات إلى ثلاث فئات: البطل، وهو العمود ذو التأثير الايجابي القوي والذي يرتبط بقوة مع أكثر من عمود أخر في قاعدة البيانات وربما يمكن توليد أعمدة بيانات جديدة منه، أما النوع الثاني فهو الداعم، وهو المتغير الذي لا يلعب دورًأ هامًا في تغيير مسار تحليل البيانات لكنه يمكن أن يثري النتائج بمزيد من التفاصيل والعمق ويمكن أن نسميه أيضًا البطل الثانوي للقصة، ويأتي في النهاية رغيم البطل أو الخصم، وهو المتغير الذي يسبب وجوده في البيانات ضوضاء وتشتت ربما لأنه حتوي على حجم كبير من البيانات المفقودة أو لا يثري وجوده جوهر القصة.

قد تساعد لعبة الكروت التي اقترحها جونسون في تجديد أدوار أعمدة البيانات في القصة، من خلال محاولة الربط بين أكثر من عمود لتحديد ما اذا كانوا سيقدونا لتفاصيل ثرية في القصة أم لا، بالطبع تلعب الدرجة السياحية وحالة الراكب أدوار البطولة في اي قصة يمكن نسجها، حيث يمكن أن نكتشف العلاقة ما بين الدرجة السياحية وعمر الركاب أو الدرجة السياحية وسعر التذكرة فربما نجد فوارق في السعر لركاب نفس الدرجة السياحية.

كلما يلعب عدد الأشقاء والأزواج وعمود عدد الوالدين دور البطل الثانوي حيث يمكن من خلالهما تحديد حجم عائلة كل راكب على السفية وتحديد ما اذا  كانوا العائلات اكثر حظًا للنجاة أو الغرق.

بينما تقل أهمية رقم اقارب النجاة و رقم الجثمان نظرًا لأنهم يحتوا على الكثير من القيم المفقودة ولا يشكلوا إضافة جوهرية لتفاصيل القصة.

مقالات ذات صلة

التعليقات