كيف تتعامل مع كَمٍّ كبير من البيانات؟

خلال تجربتي مع موقع مدرسة البيانات هذا الشهر واجهتني مشكلة في التعامل مع كمٍّ كبير من البيانات، ظلت هذه المشكلة تؤرقني كثيرًا. كيف يمكن أن أتعامل مع كل هذا الكم الكبير من البيانات؟ وماذا يمكن أن أفعل؟  قمت على الفور بالبحث عن حلٍّ لمعرفة كيف يمكن أن أتعامل مع هذا الأمر. ووجدت عدة خطوات وددت أن أشاركها معكم لعلها تساعدكم في التعامل مع ما لديكم من بيانات.

فى بداية الأمر، يجب أن تعلم أنه لا يوجد نص أو قانون متبع أثناء التعامل مع البيانات. لكنها عدة خطوات يمكن أن تساعد في وضع خطة عمل واضحة. ليس مهمًّا في هذه الرحلة التقنية التي سوف تستخدمها في تحليل البيانات، بقدر المنهجية التي سوف تتعامل معها بها، وهي الأهم. أشارك معكم فيما يلي بعض الخطوات التي قمت بها وجعلت مهمتي في التعامل مع البيانات الضخمة أسهل:

التخلص من البيانات غير الضرورية والمدخلات الخاطئة

عندما تحصل على كمٍّ كبير من البيانات، عليك في البداية التخلص من البيانات غير الضرورية بالاحتفاظ بها في نسخة احتياطية، أفضِّل عادة الاحتفاظ بنسخة من البيانات كما هي وأخذ نسخة أخرى منها لأقوم بالحذف أو التعديل عليها. حيث يسمح لي ذلك بالعودة إلى البيانات الأصيلة إذا تطلب الأمر ذلك أو الرجوع إلى النسخة الأصلية في حال ارتكبت خطأً ما أفسد ما لديَّ من بيانات. قد تكتشف أنك لست بحاجة إلى كل ما لديك من أعمدة وصفوف، لذا قم بحذفها واحتفظ فقط بكم أخف من البيانات يتناسب مع ما تحتاجه منها.

بعد ذلك، قم بالتخلص من الأخطاء، اِبدأ بالأخطاء الهيكلية في صيغة الملف ومن ثم بالأخطاء الكتابية الناتجة عن إدخالات خاطئة في مرحلة إدخال البيانات، وهو ما نسميه بتنظيف البيانات، في تلك اللحظة تتخلص من القيم المكررة في قاعدة البيانات عن طريق الخطإ وتقرر ماذا ستفعل مع القيم المفقودة فى سجل البيانات: هل ستقوم بتعبئتها تلقائيًّا بقيمة محددة أو نص محدد أم سوف تتخلص كليًّا منها.

باتباع هذه الخطوات البسيطة ستصبح أمام جدول محدد من البيانات يتناسب مع ما تريده، وخالٍ تمامًا من الأخطاء لتصبح أكثر تحديدًا وتركيزًا وتنطلق بسلاسة في مرحلة تحليل البيانات والوصول إلى استنتاجات دقيقة منها.

فهم المؤشرات أولًا

قبل أن تبدأ في العمل مع ما لديك من بيانات وتبدأ في تحليلها، عليك أولًا فهم ما تحتويه جيدًا وتحديد الوزن النسبي لكل مدخل تحتويه سجلات البيانات، والتركيز على الأهمية الإحصائية أو التركيز على تفاصيل كل جزء من البيانات. لكن عليك أن تسأل نفسك: “حتى لو كان صحيحًا أن القيمة X تزيد بنسبة 0.1٪ عن القيمة Y، فهل هذا مهم؟” يمكن أن يكون هذا مهمًّا بشكل خاص إذا كنت غير قادر على فهم/ تصنيف جزء من بياناتك. إذا كنت غير قادر على فهم إحدى المؤشرات التي تشكل وزنًا نسبيًّا كبيرًا من قاعدة البيانات فهذه مشكلة كبيرة عليك حلها أولًا قبل أن تشرع في تحليل البيانات.

استعن بالأكواد المُعَدة مسبقًا

إذا كنت ستقوم بمعالجة البيانات باستخدام لغات برمجية، فأنصحك أن لا تبدأ من الصفر وابحث عن أكواد جاهزة يمكنك استخدامها، إلا إذا كنت تفضِّل القيام بذلك بنفسك. هناك العديد من المكتبات التي توفر أكوادًا برمجية شبه جاهزة للاستخدام متلائمة مع لغات البرمجة الشائعة، مثلًا Python وR يمكن لهذه المكتبات أن توفر لك الوقت وتساعدك في معالجة البيانات بطريقة سريعة ودقيقة.

التحقق من الصحة أو الاستكشاف الأوَّلي للبيانات

حيث نعمل خلال هذه المرحلة على التحقق من اتساق البيانات ذاتيًّا، بمعنى: هل كافة القيم التي تقع داخل المدى المفترض تتراوح بينه، أم أن هناك قيمًا متطرفة تم إدراجها عن طريق الخطإ. نحن نتحقق من منطقية المدخلات أولًا قبل أن نقوم بتحليلها كما نجمع كل ما نعرفه عنها وعن آلية جمعها، كأن نحدد من قام بجمعها ومتى نشرت وكيف تم جمعها ومتى تم تحديثها للتأكد من صحتها ودقة منهجية جمعها.

الوصف: ما هو التفسير الموضوعي لهذه البيانات؟

التقييم: بالنظر إلى الوصف، هل تخبرنا البيانات أن شيئًا جيدًا يحدث!

من خلال فصل هذه المراحل، يمكنك أن تشارك ما لديك من بيانات مع زملائك في العمل في حال كنتم سوف تعملون عليها كفريق. سوف يجعل ذلك الأمر الجميع عند نقطة اتفاق واحدة فيما يخص البيانات وكيفية التعامل معها. من المحتمل أن يكون التقييم أكثر نقاشًا لأنك تضفي المعنى والقيمة على البيانات. إذا لم تفصل بين الوصف والتقييم، فمن الأرجح أن ترى فقط تفسير البيانات التي تأمل في رؤيتها.

بعد ذلك تصبح المهمة سهلة، لكن عليك أن لا تنسى أثناء تحليل البيانات:

1- أن تضع فرضية واحدة وتنطلق من أسئلة

سوف تشعر بالتشتت إذا بدأت في تحليل البيانات من دون أن يكون لديك فرضية واحدة تحاول العمل عليها، تساعدك الفرضية على اتباع خطة عمل واضحة وتساعدك في تحديد مسار تحليل البيانات، كذلك الأسئلة تساعدك في معرفة أي نوع من المعادلات الحسابية سوف تجري. وتذكَّر أنه ليس مهمًّا أن تحصل في النهاية على إثبات صحة ما افترضته من البداية فقد تقودك عملية التحليل إلى نفي هذه الفرضية أو الوصول إلى اكتشاف جديد من بين ركام البيانات، في النهاية سوف تصل إلى شيء ما منطقي سوف تكشفه لك البيانات.

2- تحقق من التحليلات السابقة لنفس البيانات إن وجدت

يمكن أن تحصل على سجلات بيانات مصحوبة بمعادلات ونتائج حسابية لعمليات تحليل سابقة، أنصحك أن تتجاهلها تمامًا أو على الأقل تعيدها بنفسك مرة أخرى للتحقق من نتائجها. جميعنا نخطئ، ومن المحتمل أن يكون الشخص الذي أعد هذه التحليلات قد وقع في خطإٍ ما لا تكشفه النتائج لذا تحقق منها بنفسك. فالشك هو طبيعة الإنسان ويجب أن يكون أيضًا لدى محلل البيانات بنسبة كبيرة.

3- قم بالمراجعة مرتين أو أكثر

هنا عليك أن تشك في نفسك، فأنت بشر ووارد أن تخطئ أيضًا. قبل أن تشارك نتائجك مع الآخرين قم بالتحقق منها ومن سلامتها، حاول تحليل نفس الشيء بطرق متعددة. بعد ذلك، تحقق لمعرفة ما إذا كانت هذه التحليلات المتعددة متسقة بعضها مع بعض. باستخدام طرق متعددة، يمكنك الحد من الأخطاء غير المتوقعة مع تكرار فعلها.

[sibwp_form id=2]

مقالات ذات صلة

التعليقات