fbpx

كيف يمكن أن نتعلم صحافة البيانات من خلال قاعدة بيانات “تايتانك”

الحلقة الثانية

معالجة البيانات

لربما اندهش الكثيرون منكم عند قراءة العنوان، ففي أغلب الظن أن بعضكم توقع أن تأتي مرحلة تحليل البيانات بعد مرحلة استكشاف البيانات. في الحقيقة، تأتي مرحلة التحليل في ترتيب متأخر من مراحل العمل، حيث يسبقها مرحلة معالجة البيانات والتي تنقسم إلى تنظيم البيانات وتنظيفها، ثم مرحلة “مقابلة” البيانات والتي تتضمن عملية طرح الأسئلة ومحاورة البيانات للوصول إلى معلومات تقودنا قصة صحفية.

يذهب تقريبًا أكثر من 90% من الوقت المستغرق في انتاج قصة صحفية مدفوعة بالبيانات لمرحلة معالجة البيانات وتهيئتها للمقابلة، وهي مرحلة لا ييجوز تخطيها، حيث قد ينتج عن تجاوزها قصة صحفية مضللة وغير دقيقة، لأن البيانات العشوائية ستقود حتمًا إلى تحليلات خاطئة وبالتالي استنتاجات خاطئة.

قبل أن نبدأ، تأكد من فهمك لجدول البيانات وامتلاك كافة المعلومات حوله. كمعرفة مصدر البيانات الأصلي، وتحديد هوية المنظمة/المؤسسة التي أنتجت هذه البيانات، وتحديد ما إذا جمعت البيانات بنفسها أم من خلال مصد آخر، وتحديد ما إذا كانت البيانات تفصيلية أم إجمالية، ومعرفة عُمر قاعدة البيانات وهل تم تحديثها بعد تاريخ نشرها الأول. وهل يحتوي سجل البيانات على تبويب يوضح منهجية جمعها، وأخيرًا هل يمكن الحصول على هذه البيانات من مصدر آخر باستخدام تدابير أخرى كالبحث المتقدم محركات البحث أو كشطها من صفحات الويب.

تنظيم البيانات

قد تشعر من الوهلة الأولى من النظر لجدول البيانات ركاب الباخرة تايتانك أن كل شيء على ما يرام وأن البيانات منظمة، هي بالطبيع بيانات منظمة لأنها مجدولة في هيكل منظم مكون من أعمدة وصفوف، لكن التنظيم هنا ليس المقصود بيه تنظيم هيكل البيانات وحسب بل يمتد ليشمل تنظيم منهجية العمل على البيانات.

فأول ما ينبغي فعله هو إضافة ورقة عمل جديدة Sheet في مصنف مايكروسوفت إكسل تحمل اسم “المصدر” حيث يتم تدوين فيها رابط الحصول على قاعدة البيانات وتاريخ نشرها واسم مصدرها وكيفية جمعها وتعريف واضح لما جاء بها من اختصارات أو مصطلحات. وتسمى هذه المدخلات بالـ “Metadata” آي البيانات التوصيفية لقاعدة البيانات. وقد تأتي بعض جداول البيانات الصادرة عن مؤسسات بحثية أو حكومية متضمنة هذا القسم، لكن إن لم تجده فعليك انشاءه قبل اي شيء آخر.

أضف فيها المعلومات التالية:§         اسم قاعدة البيانات بحسب مصدرها.§         اسم المؤسسة/ المنظمة التي أصدرت قاعدة البيانات.§         رابط إلى المصدر الأصلي§         تاريخ جمع البيانات§         تاريخ حصولك على البيانات

بعد ذلك قم بنسخ البيانات في ورقة عمل جديدة لأخذ نسخة احتياطية منها، وهو إجراء احترازي هام للغاية، لأنك فيما بعد قد تجري تعديلات على جدول البيانات أما بالحذف أو الإضافة وقد تحتاج في مرحلة ما العودة إلى البيانات الأصلية، وهو الأمر الذي قد يكون صعبًا إذا ما كنت تحتفظ بنسخة احتياطية.

لمزيد من الاحتياط يمكنك نسخ ملف الاكسل أيضًا وحفظه في مكان آخر من حاسوبك. ربما تشعر أنه لا ضرورة لذلك لكون البيانات متاحة على الإنترنت وأن رابط تحميلها بحوزتك، لكن تذكر أن “ما وجدته بسهولة قد يضيع بسهولة” قد يختفي جدول البيانات من الإنترنت لعدة أسباب أبسطها حجب الموقع أو تعطله عن العمل أو أن المصدر قد عدل هيكل روابطه الألكترنية فتحول مسار الرابط الذي بحوزتك إلى صفحة معطلة.

أنظر الآن إلى جدول البيانات، لدينا ورقة عمل تحمل اسم “المصدر” وآخرى “البيانات الخام” ثم أخيرًا “النسخة الاحتياطية”.

وفي حال ما إذا كان حجم المدخلات في جدول البيانات أكبر من مساحة الرؤية بشاشة حاسوبك فيمكنك أن تنهي مرحلة تنظيم البيانات ببعض الخطوات الإضافية كـ تجميد الصف الأول والعمود الأول والذان يحملان تبويبات الأعمدة والصفوف، حتى تتمكن من التنقل بمرونة في جدول البيانات يمينًا ويسارًا ولأعلى وأسفل مع القدرة على رؤية تبويبات البيانات أينما تحركت.

كما يمكنك أيضًا أن تقوم بـ إخفاء الأعمدة والصفوف غير الضرورية .هل تتذكر أن كنا قد اتفقنا في التدوينة السابقة على حذف المدخلات التي تحتوى على نسبة مرتفعة من البيانات المفقودة مثل العمود الخاص برقم جثمات الغرقى وعمود رقم قارب الإنقاذ والعمود الذي يحتوي على وجهة الراكب النهائية.

لتجميد الصف الأول والعمود الأول، اختار freeze Panes  من تبويب View ثم اختار Freeze Top Row لتجميد الصف الأول، ومن بعدها اختار Freeze First Column لتجميد العمود الأول.

لإخفاء أعمدة البيانات غير الضرورية، قم باختيار الأعمدة من خلال النقر على رأس العمود والتنقل بين الأعمدة باستخدام زر التحكم Ctrl لاختيار باقي الأعمدة غير الضرورية، وبعد تحديدها قم بالغفط على الزر الأيمن من الفأرة واختار إخفاء من بين اختيارت القائمة الظاهرة أمامك.

هناك بالطبع المزيد والمزيد من الخطوات التي يمكنك أخذها لتنظيم البيانات، حيث يوفر برنامج مايكروسوفت إكسل عدد من الخصائص المتعلقة بتظيم البيانات مثل محاذاة المدخلات، أو إعادة ترتيب الأعمدة لما يتوافق مع السياق الذي تود رؤية البيانات عليه، وجميعها خطوات اختيارية وتختلف من قاعدة بيانات للآخرى، بينما الخطوات السابقة تعتبر منهجية عمل ثابتة ينبغي اتباعها مع اي قاعدة بيانات مستقبلية.

تنظيف البيانات

يمكننا تعريف عملية تنظيف البيانات بأنها عملية اكتشاف وتصحيح (أو إزالة) المدخلات غير الصالحة أو غير دقيقة من مجموعة سجلات أو جداول أو قاعدة بيانات، وكذلك تحديد الأجزاء غير الكاملة أو عديمة الصلة بالبيانات ثم استبدالها أو تعديلها أو حذفها من قاعدة البيانات.

من المرجح أننا عندما نحصل على مجموعة من البيانات من آى مصدر كانت سنجد بعض الأخطاء. التي وقعت أثناء عملية ادخال البيانات، ومن النادر أن يحالفنا الحظ لتجاوز هذه المرحلة، إلا في حالة واحدة هي عندما نكون أنت من قمت بجمع البيانات وجدولتها بنفسك.

قبل أن تشرع في تنظيف البيانات، أضف ورقة عمل جديدة لمصنف البيانات وسمها “يوميات البيانات”، وثق من خلالها كل ما قمت به من خطوات لتنظيف البيانات. تعد هذه الخطوة  واحدة من أفضل الممارسات للتعامل مع البيانات. والتي لا تتطلب فقط إلا القليل من الجهد، ليس من الضروري أن تسرد بها مساحة كبيرة لتوثيق كل خطوة، يكفي كتابة بعض العبارات القصيرة لإعطائك أنت أو أي شخص آخر معلومات كافية لفهم كل ما تم من اجراءات أثناء معالجة البيانات.

تتمحور عملية تنظيف البيانات على قدرة الصحفي على تحديد الخلل في قاعردة البيانات، حيث ان كل مشكلة لها أكثر من طريق لحها، كما ان كل مشكلة لها طريقة مختلفة عن غيرها من المشاكل الآخرى، وقد يتطلب الأمر استخدام برامج متخصصة في تنظيف البيانات كبرنامج Open Refine أو لغات برمجية مثل بايثون أو R في حال ما إذا كان حجم البيانات التي تتعامل معها كبير للغاية يفوق قدرة برنامج الإكسل في التعامل معها أو تتطلب معالجتها بالطرق التقليدية وقت طويلًا.

وفي حالة بيانات الباخرة تايتانك التي نحن بصددها الآن، فأن جميع الأخطاء يالمتواجدة بجدول البيانات يمكن معالجتها وتنظيفها باستخدام حلول بسيطة للغاية متوفرة في برنامج مايكروسوفت إكسل، يوضح الجدول التالي نوع الأخطاء وكيفية معالجتها:­

المشكلةتوصيفهاطريقة الحل
تنسيق الأعمدة غير متوافق مع طبيعة المحتوى المدرج بها بالوقوف مثلا على آي عمود في جدول البيانات، سنجد أن الخانة التي تظهر في قسم Number في القائمة الرئيسية لبرنامج إكسيل تظهر على نحو General ، في حين أن الأدق أن يظهر بدلًا منها Text في الأعمدة التي تحتوي على نصوص وNumbers  في الأعمدة التي تحتوي على أرقامالمرور على كل عمود وإعادة تنسيقه من خلال قسم Numbers في القائمة الرئيسية واختيار توصيف لكل عمود يناسب طبيعة المدخلات به 
فصل أجزاء من المدخلات في أعمدة جديدة مستقلة لاحظ أن العمود الخاص بأسماء الركاب يحتوي على ثلاث مدخلات مختلفة هما: الأسم الأول واللقب واسم العائلة. والقاعدة في برنامج إكسيل تنص على أن كل خلية واحدة ينبغي أن تحتوي على مدخل واحد.هنا يمكن استخدام خاصية تحويل النص إلى أعمدة، والتي تتيح لنا تقسيم المخلات في أعمدة جديدة مستقلةمن خلال تحديد وسيلة الفصل بين المدخلات، بحسب العلامة التي تفصل بينهم، إذا كانت فصلة أو مسافة وشي آخر.
تعديل الاختصارات تحتوي البيانات على عدد من الاختصارات خاصة في العمود الأول والثاني، حيث تظهر الدرجات السياحية في صيغة رقمية، فيعكس الرقم 1 ركاب الدرجة السياحية الأولى و2 الدرجة السياحية الثانية وهكذا، كما يأخذ الغرقي ترميز 0 بينما الناجيين ترميز 1 في العمود الثاني الخاص بحالة الراكب.وهي اختصارات معبر لكنها غير فعالة حيث أن طبيعة المدخلات في هاذا العمودان هما بيانات وصفية وليس بيانات رقمية فلا جدوى من جمع كافة الأصفار للركاب الغرقى لأن المحصلة ستكون بالتأكيد صفر.يمكن معالجة الأمر بعدة طرق، أبسطها هو فلترة كل عمود وفقا للقيم المدرجة فيه ويتم استبداله بالكلمة المناسبة للتعبير عنه.مثلا أن يتم فلترة العمود الأول واختيار رقم 1 فقط ومن ثمن استبدال واحد بكلمة “الدرجة السياحية الألولى” وهكذا تباعًا مع كافة الأعمدة التي تحتوى على ترميزات غير منطقية. 
 
البيانات المفقودة يحتوى عمود العمر على العديد من القيم المفقودة والتي تصعب عملية التحليل المستقبلي الذي يعتمد على متغير العمل كمتغير رئيسي في عملية التحليلهناك عدد من الحلول المختلفة لمعالجة هذا الأمر:·         تعبئة البيانات المفقودة يدويًا في حال ما اذا كنا نعرف القيم المفقودة على وجه التحديد.·         استبدال الخانات المفقودة بقيمة ثابتة أو تسمية موحدة مثل “غير معلوم”.·         استخدام أحد قيم مقاييس النزعة المركزية بدلًأ من القيم المفقودة، مثل متوسط عمر الركاب على سبيل المثال.·         استخدام أحد قيم مقاييس النزعة المركزية لفئة البيانات التي تنتمي لها القيم المفقودة، أي أن يتم أعطاء كل راكب عمره مفقود متوسط عمر الركاب في نفس الدرجة السياحية لها. وهو الاختيار الأقرب للدقة

مقالات ذات صلة

متى ينبغي أن تلقي بما لديك من بيانات في صندوق القمامة؟

بالتأكيد سمعت هذه العبارة من قبل Garbage in garbage out، والتي تعني أن المدخلات الرديئة تقود لمخرجات رديئة بالضرورة، وكذلك هو الحال في علم البيانات، فأن البيانات الردئية ستقودك إلى تحليلات خاطئة وبالتالي تؤدي بك إلى اتخاذ قرارت غير سليمة، لذا يتوجب عليك تجنب الوصول لهذه النهاية والتخلي عن ما لديك من بيانات رديئة بإلقاءها في صندوق القمامة.

التعليقات