محددات جودة البيانات
يشير مصطلح جودة البيانات إلى الحالة التي تظهر عليها المتغيرات النوعية أو الكمية في سجل البيانات. تعتبر البيانات عالية الجودة إذا كانت “مناسبة للاستخدام في عمليات اتخاذ القرار والتحليل، ومع زيادة حجم البيانات، تصبح مسألة اتساق البيانات مهمة، بغض النظر عن مدى ملاءمة الاستخدام لأي غرض معين.
من الضروري أن تتحقق من جودة البيانات قبل أن نبدأ في مرحلة تحليلها، للتأكد من ما إذا كان هناك أي أخطاء في مجموعة البيانات. فمن السهل للغاية أن ترتكب أخطاء عند إدخال البيانات، بل أن بعض الأخطاء للأسف قد تؤدي إلى عدم إتمام التحليلات بالشكل الصحيح. لو قمت- مثلًا- بإدخال 35 بدلًا من في 3 في أحدى خلايا البيانات، فإن ذلك يؤدي إلى نتائج غير صحيحة تمامًا عند اجراء المعادلات الحسابية.
والمعروف أن بعض التحليلات تتسم بالحساسية الشديدة، لذا، من المهم تخصيص جزء من الوقت للتحقق من وجود الأخطاء في البداية بدلًا من محاولة تصحيحها في وقت لاحق. على الرغم من أن هذه العملية قد تبدو مملة ومرهقة إذا كانت لديك مجموعات كبيرة من البيانات، فإنها تعد عملية جوهرية، وستوفر عليك كثيرًا من الجهد فيما بعد.
يتم تحديد جودة البيانات من خلال عوامل مثل الدقة والاكتمال و الموثوقية والملاءمة ومدى تحديثها.
الصلاحية
هل البيانات موجودة بالتنسيق الصحيح؟
تتعلق صلاحية البيانات بتخزين البيانات بالنوع والشكل الصحيحين، وكذلك ضمن النطاق الصحيح. على سبيل المثال، إذا كان أحد الأعمده بسجل البيانات يحمل عنوان بريدًا إلكترونيًا، فيجب أن تحتوي قيمة البيانات على الرمز “@”؛ وإذا كان تاريخًا، فيجب أن يتبع تنسيق تاريخ محدد؛ وهكذا. من المهم أن تتوافق البيانات مع هذه المعايير حتى يمكن اعتبارها صالحة. البيانات غير الصالحة – حتى لو كانت دقيقة أو كاملة – لا يمكن مطابقتها أو تحويلها دون تنظيفها.
الاكتمال
هل بياناتك شاملة كما تحتاجها؟
يتعلق الاكتمال بوجود جميع المدخلات الأساسية في سجل البيانات، تغيب بعض المدخلات في سجل البيانات لعدة أسباب أبرزها عدم القدرة في الوصول إليها عند إنشاء قاعدة البيانات، مثل عدم القدرة على معرفة أعمار كافة المشاركين في مسابقة رياضية ما، أو أن هذا المدخلات كانت متوفرة لكنها وقعت سهوًا أثناء إدخال البيانات إلى أحد برامج معالجة البيانات.
قد تؤدي البيانات المفقودة إلى اتخاذ قرار بالتخلي عن أحد الأعمدة الرئيسية في سجل البيانات نظرًا لأنه يحتوي على العديد من الخلايا الفارغة وبالتالي يصعب استنتاج أي دلالات دقيقة من تحليل سجل البيانات.
التفرد
هل البيانات خالية من المدخلات المكررة؟
إلى جانب القواعد المذكورة أعلاه، تضمن جودة البيانات تفرد البيانات، مما يعني عدم وجود مدخلات مكررة في مجموعات البيانات الخاصة بك. يمكن أن تقودك التكرارات إلى وضع افتراضات خاطئة حول بياناتك.
الدقة
هل البيانات ضمن النطاق المنطقي لها؟
تشكل القيم المتطرفة التي تم ادخالها عن طريق الخطأ ضمن سجل البيانات أحد أهم العوامل التي قد تتسبب في تقليل جودة البيانات، لأنه من المؤكد أن ينتج عنها استنتاجات خاطئة لذا من الضروري أن نقوم بفرز الأعمدة داخل قاعدة البيانات من القيمة الأكبر حتى القيمة الأصغر أو العكس حتى نتأكد من أن البيانات التي يحتويها كل عمود ضمن النطاق المتوقع أن تكون عليه.
مثل فرز عمود العمر، للتأكد من أن العمود لا يحتوي على قيم أكبر من 100 سنة.