fbpx
مدرسة البيانات

مراجعة لكتاب: “Naked Statistics” الإحصائيات العارية

عادة ما يلفت انتباهي عنوان الكتاب، ودائمًا ما أبحث عن مقصد الكاتب بالعنوان. وفي عنوان مميز جدًّا لفت انتباهي الصحفي الأمريكي Charles Wheelan إلى كتابه Naked Statistics: Stripping the Dread from the Data.  الكاتب Wheelan هو خبير اقتصادي وأستاذ جامعي. حيث تحدَّث في مضمون كتابه حول الإحصاء، توقعت من الكاتب جرأة في التعبير والوصف ودقة الشرح وهما ما أوحى العنوان به. وكان توقعي في محله، حيث بدأ Wheelan في مقدمة كتابه بقصة طريفة جدًّا عن مدى كرهه للرياضيات ولحصص التفاضل والتكامل التي لطالما كرهتها أنا أيضًا. فكيف تحول الطالب الذي يكره حصص الرياضيات إلى الكاتب الذي يناقش بسعادة متوسطات الضرب ومتوسطات النقاط ومنحنيات الاختبار، كل الإحصائيات! 

قدم إلينا Wheelan الإحصائيات على أنها أكثر من مجرد صيغ ومنحنيات بيانية. دليله ليس كتابًا دراسيًّا، لكنه يقدم مفاهيم المعرفة المعلوماتية في سياق تحليل البيانات. يوضح Wheelan أولئك الذين لا يدركون جمال البيانات. يقول عن كتابه: “كل فصل في هذا الكتاب يعد بالإجابة على السؤال الأساسي الذي طرحته (بلا تأثير) لمعلم التفاضل والتكامل في المدرسة الثانوية: ما الهدف من هذا؟” كتابه الواضح الذي يسهل الوصول إليه مخصص لقارئ الأعمال العام، وليس للمتخصصين أو مساهمي الأسهم. إنه كتاب مفيد جدًّا لمن يعانون من رهاب الأرقام، على الرغم من أن بعض القراء قد يتصفحون مقاطع كبيرة معينة أو حتى فصولًا كاملة بدلًا من التهامها. يجعل Wheelan الأمور أسهل من خلال إعطاء عدة فصول ملاحق خاصة بها مليئة بالصيغ التفصيلية. 

يشرح الكاتب عدة مفاهيم مهمة، أولها أن البيانات لا تكذب. وهنا يعني أنه لا يمكن أن تقول أن هذه البيانات كذب لكن أيضًا لا يمكنك أن تقول إنها حقيقة، فقط الإحصائيات تستطيع أن تعطيك تفسيرًا منطقيًّا لها وتدل على المعنى. يوضح أيضًا أنه عند العمل على نظريات إحصائية عليك أن تعمل على عينة كبيرة في الحجم وعشوائية. لأن هذا النمط قد يساعدك في الحصول على نتائج أفضل. 

يفسر Wheelan أن ارتباط الأشياء رقميًّا لا يعنى سببية ارتباطهم ببعض وهو الأمر الذي يختلط على البعض، بمعنى أن محاذاة حدثين لا تعني أنهما يؤثران بعضهما في بعض. يذكرك أيضًا بأن تفترض أن جميع الحقائق والأرقام الإحصائية عرضة للتحيز.

في الفصل الأول بعنوان:

“What’s the Point?”

يشرح Wheelan آلية عمل علم الإحصاء حيث تعتمد جميع أنواع الأحداث المستندة إلى الأرقام، مثل توقعات الانتخابات، على التحليل الإحصائي. يمكنك أيضًا اتخاذ قرارات شخصية أكثر دقة في شتى الأمور في حياتك، مثل: أي الفرق ستراهن عليها اليوم أو في أي شركة تستثمر، إذا كنت تفهم الإحصائيات. 

يستمر فى شرح مفهوم الإحصائيات مُعرِّفها بأنها “أداة سهلة الاستخدام ومتعددة الاستخدامات – وهي نتيجة قيام الأشخاص بدمج وتحليل أنواع مختلفة من البيانات وتحويل المعلومات المعقدة إلى أرقام سهلة الفهم. فهي تعامل الإحصائيات كمبدإٍ توجيهي لقياس كل شيء تقريبًا. يستخدم الناس الإحصائيات كل يوم.” 

كما أوضح أيضًا Wheelan أنه فى ظل عصر المعلومات اليوم، ينتج عدد لا يحصى من الموضوعات المعتمدة على الإحصائيات فى تحليلها، مثل توصية الأفلام على موقع Netflix، فهي توصي بالأفلام بناءً على احتمالية إعجاب العميل بأفلام مماثلة. إذا أحب العديد من المشاهدين فيلمًا وشاهد معظمهم فيلمًا معينًا بعد ذلك، فمن المحتمل أن كل من يحب الفيلم “أ” سيحب الفيلم “ب” أيضًا؛ ثم توصي Netflix بالفيلم ب للعملاء الذين يحبون الفيلم أ.

وبعبارة لافتة جدًّا أوضح Wheelan كيف يمكن للإحصائيات أن تلخص كميات كبيرة من المعلومات، وتمكين الأشخاص من اتخاذ قرارات أفضل من تلك البيانات، وتساعد الباحثين على تحديد الأنماط، مثل: حجم النشاط الإجرامي أو اتجاهات الإنفاق الأكثر شيوعًا. فقال: “من السهل الكذب مع الإحصائيات، لكن من الصعب قول الحقيقة بدونها.”

الإحصائيات تساعد في حساب مخاطر الاستثمار وأقساط التأمين. يجب أن تقرر شركات التأمين التكاليف بناءً على الاحتمالية الإحصائية لحدث ما، مثل مدى احتمالية تعرض سائق معين لحادث أو مدى احتمال تعرض منزل معين للضرر بسبب الفيضان.

الفصل الثانى بعنوان: Descriptive Statistics

ينتقل Wheelan هنا إلى شرح أهمية تعلم لغة إحصائية، حيث تكون الفروق بين البيانات المقدمة كوسيط أو متوسط أو وسط حسابي ​​هي الفرق بين كسب المال وخسارته. فمثلًا إذا كانت هناك مؤسسة تعمل على استهداف مجموعة ديموغرافية معينة فالفرق بين هذه القيم سيشكل فارقًا كبيرًا ويغير الطريقة التي تخطط بها المؤسسة لاستهداف تلك المجموعة الديموغرافية.

استخدم الكاتب تعبير: “garbage in, garbage out” وهنا أوضح أنه لا يمكن لأى تحليلات مهما كانت جيدة أن تعوض وجود تلف فى هذه البيانات من الأساس. 

يمكن أن تساعد الإحصائيات الشركة في معرفة ما إذا كانت تقوم بشحن الكثير من المنتجات ذات العيوب الصغيرة أو القليل من المنتجات التي بها عيوب خطرة. والنتيجة هي انخفاض المبيعات، ولكن يجب على الشركة معالجة المشكلة الفعلية.

يشرح في هذا الفصل أيضًا أهمية السياق في فهم الأرقام، حيث تعطي النسبة المئوية للتغيير بين رقمين إحساسًا مهمًّا بالمقياس إذا تم استخدامها في السياق الصحيح. يمكن للإحصاءات أيضًا وصف البيانات بشكل بسيط حيث تدمج المتغيرات المعقدة في أرقام بسيطة تسهل للمقارنة.

الفصل الثالث بعنوان: Deceptive Description

حذر الكاتب من الوقوع فى خطإ العبارات المضللة. الرياضيات دقيقة، لكن الناس يستخدمون الإحصاء لوصف الرياضيات، وبالتالي يتركون مجالًا للخطإ. فمن الأفضل لك التعرف على أساس الإحصائيات التي تستخدمها، واستدل  الكاتب على مثال شبكات الاتصالات في الولايات المتحدة، حيث يقدم تحليل تغطية الهاتف المحمول مثالًا رئيسيًّا على البيانات الوصفية في العمل. قد تغطي شبكة Verizon أكبر نسبة من الولايات المتحدة جغرافيًّا، لكن شبكة AT&T قد تصل إلى معظم الأشخاص نظرًا إلى أنها تتمتع بتغطية أكبر في المراكز السكانية الكبيرة.

وأيضًا في مثال آخر، إذا زاد عقار يُحتمل أن ينقذ الحياة متوسط ​​عمر الحاصلين عليه بمقدار أسبوعين، فهل يستحق الدفع مقابل ذلك؟ قد يبدو أسبوعان غير مهمين، لكن هذه الإحصائية لا تظهر أن الدواء قد عالج ما يصل إلى 40٪ من المرضى. الوسيط الحسابى ​​للعمر المتوقع لن يعكس هذا، لكن متوسط العمر قد يعكس هذا. 

“إذا قمت بسحب عينات عشوائية كبيرة من أي مجموعة سكانية، فسيتم توزيع وسائل تلك العينات بشكل طبيعي حول متوسط ​​السكان.”

لا يعني مجرد كون الإحصاء أو الترتيب شائعًا أنهما مهمان. تنشر US News & World Report تصنيفات الكليات المرتقبة بشدة كل عام. يقوم بتصنيف المدارس من جميع الأنواع عبر عدة معايير وتخصيص رقم ودرجة فهرس لها. لا يدرك معظم القراء أن “السمعة الأكاديمية” هي العامل الأكثر ترجيحًا. لا تأتي هذه النتيجة من بيانات قابلة للقياس، ولكن من استطلاعات رأي أساتذة الجامعات. يعتقد الكثيرون أن جامعة هارفارد هي أفضل جامعة، لذا فهي تحصل على تصنيف أعلى – وهذا يؤدي إلى سمعة أفضل.

الفصل الرابع بعنوان: Correlation

الترابط لا يعنى السبب، فقد تؤدى التغيرات فى أحد المتغيرات إلى تغير فى متغير آخر؛ لكنه ليس بالضرورة أن يحدث. فمثلًا قد تُظهر دراسة أن الطلاب الذين لديهم المزيد من أجهزة التلفزيون في المنزل يكسبون درجات أعلى فى SAT. ربما تحدث أجهزة التلفزيون اختلافًا بسيطًا. قد يكون دخل الأسرة هو الفرق الحقيقي. ربما تستطيع الأسرة التي لديها أجهزة تلفزيون متعددة تحمل تكلفة مدرسين ودروس إعدادية أفضل.

الفصل الخامس بعنوان: Basic Probability

تحدث هنا عن بداية نظرية الاحتمالات، دراسات الاحتمالية نتائج غير مؤكدة. تنطوي عمليات رمي ​​العملات، والاستثمار في سوق الأسهم، ولعب الروليت على مستوًى من عدم اليقين. كما هو الحال مع المقامرة وبعض الاستثمارات، يمكن أن تحقق المخاطر العالية أرباحًا عالية. ومع ذلك، فإن احتمال حدوث مكافأة معينة هو مسألة إحصائية.

الارتباط بين متغيرين يشبه البصمة في مسرح الجريمة. إنه يوجهنا في الاتجاه الصحيح، ولكن نادرًا ما يكفي الإدانة. في بعض الأحيان، يكون احتمال وقوع حدث ضئيلًا، وهذا جيد. إذا كان لدى الجميع نفس الحمض النووي، فإن تحليل الحمض النووي لن يكون ذا فائدة تذكر. نظرًا إلى أنه من غير المحتمل أن يكون لأي شخصين نفس الحمض النووي، فهو عامل جدير بالثقة.

التأمين ضد سرقة السيارات، على سبيل المثال، يحمي السيارة المؤمَّن عليها مقابل قسط شهري. من غير المحتمل أن تتم سرقة أي سيارة معينة، لذلك تستفيد شركة التأمين من عدم الاضطرار إلى الدفع كثيرًا. ومع ذلك، فكلما زادت قيمة السيارة وزادت احتمالية سرقتها – بسبب مكان وقوفها – زادت تكلفة التأمين. ضع فى حسابك أنه “لا يمكن أن تكون الإحصاءات أكثر ذكاءً من الأشخاص الذين يستخدمونها”.

تحلل “التحليلات التنبؤية” البيانات لتقرير مدى احتمال وقوع حدث. من المرجح أن يكون الشخص الذي لديه درجة ائتمانية جيدة عميل قرض جيد، وأن يدفع الفواتير في الوقت المحدد، وأن يعتني بالمنزل بشكل جيد. فقط لأن شيئًا ما غير مرجح إلى حد كبير، مع ذلك، لا يعني أنه مستحيل. غير المحتمل يمكن وسيحدث. ربما لن تفوز أبدًا باليانصيب، لكن شخصًا سيفوز بذلك.

الفصل السادس بعنوان: Problems with Probability

عرض الكاتب مشكلة نموذج (VaR)، ليشرح المشاكل التى قد تواجه نماذج الاحتمالات. سعى نموذج “القيمة المعرَّضة للخطر” (VaR) الذي فقد مصداقيته الآن إلى العمل في العالم المالي من خلال الجمع بين المؤشر والاحتمال. افترض النموذج أن كل استثمار له مجموعة محتملة من النتائج. حاولت تقدير احتمالية أن يحقق السهم أرباحًا أو يخسرها. تعرض القيمة المعرضة للخطر، وهي نموذج أبيض وأسود في عالم رمادي، فوقع فى ثلاثة أخطاء:

  1. لم يأخذ في الاعتبار أن الأسواق المالية لا يمكن التنبؤ بها. أدت الدقة الزائفة إلى انهيارها وربما إلى انهيار سوق الأسهم عام 2008.
  2. فشل النموذج في إنشاء سياق مناسب. افترضت القيمة المعرضة للمخاطر أن الأداء السابق يشير إلى الأداء المستقبلي. هذا ليس هو الحال في وول ستريت.
  3. أهملت الشركات التي تستخدم القيمة المعرَّضة للمخاطر “مخاطر الذيل” – وهي فرصة محتملة لوقوع كارثة غير محتملة.

“لن تخبرنا الصيغ باستخدامات البيانات المناسبة وأيها غير مناسب. الرياضيات لا يمكن أن تحل محل الحكم”.

إن افتراض ارتباط الحدث دون البحث عن السببية هو تهور، لكن التفكير في أن كل الأحداث عشوائية أمر خطر بالقدر نفسه. يجب على المحللين التحقق من النتائج بناءً على البيانات المترابطة.

الفصل السابع بعنوان: The Importance of Data

يوضح الكاتب أهمية البيانات في عالم الإحصاء، فلا يمكنك الحصول على نتائج جيدة بدون بيانات جيدة. كما ذكرت سابقًا أن جودة التحليل لا تصلح عيوب البيانات. ومن هنا جاءت البديهية الإحصائية. يجب أن تكون أحجام العينات مناسبة للسكان الذين يتم أخذ عينات منهم، ويجب أن تكون العينة عشوائية. إذا قام الباحثون بإجراء مسح للمسافرين في مطار ما، فإن المعلومات التي تم جمعها ستعكس تحيزًا تجاه المستهلكين القادرين على الطيران. التحيز في الاختيار هو مأزق في جمع البيانات.

قد يجد الباحثون صعوبة في الحصول على عينات أو بيانات تمثيلية. عندما يحدث خطأ في التحليل، فمن المحتمل أن يكون خطأ البيانات السيئة وليس الصيغة السيئة. تشمل التحيزات المحتملة بيانات مأخوذة بشكل غير صحيح، وبيانات تم الإبلاغ عنها بشكل خاطئ عن قصد، وبيانات تستند إلى ذكريات خاطئة تم تقديمها كحقائق أثناء الاستطلاعات. افترض أن جميع الحقائق والأرقام الإحصائية عرضة للتحيز.

الفصل الثامن بعنوان: Central Limit Theorem

يأخذنا هنا الكاتب إلى شرح المزيد حول نظرية الحدود المركزية، حيث تسمح الإحصائيات للباحثين بتجميع كميات صغيرة بشكل مدهش من البيانات لاستخلاص استنتاجات قوية. تسمح نظرية الحد المركزي للمحللين بعمل استنتاجات حول عدد كبير من السكان بناءً على عينة تمثيلية.

من المبادئ الأساسية للنظرية أن العينات الكبيرة المسحوبة عشوائيًّا تشبه عدد السكان الأكبر. سيعكس متوسط عينة من الناس التوزيع الطبيعي حول الوسط السكاني. بغض النظر عن “توزيع السكان الأساسي” ، فمن غير المرجح أن تتضمن البيانات العديد من القيم المتطرفة. ليس ما يهم التعداد السكاني لكن التوزيع السكاني هو الأهم.

الفصل التاسع بعنوان: Inference

اِستكمل Wheelan في عرض الأفكار، وتحدث عن الاستنباط. الإحصائيات لا تثبت أي شيء على وجه اليقين. يقوم المحللون بعمل تقديرات من خلال تطبيق الفطرة السليمة والبيانات الجيدة والمنهجية السليمة. يستخدم الخبراء “الاستدلال الإحصائي” لقبول أو رفض فرضية. يقيس الاستدلال احتمالية صحة شيء ما ولكن لا يمكن إثباته بشكل مباشر. يمكن للإحصاء توجيه الباحث في الاتجاه الصحيح، لكن الاختبار والملاحظة فقط هما اللذان يثبتان وجود فرضية.

الفصل العاشر بعنوان: Polling

يناقش كيف يمكن أن تكون استطلاعات الرأى مهمة، حيث تكون الاستطلاعات – التحليل الإحصائي الذي يتم إجراؤه على بيانات المسح – ورقة ربح أو خسارة، قد تعطيك البيانات الدقيقة أو ربما تضللك. لاحظ النسبة المئوية لخطإ الاستطلاع: فكلما انخفض الخطأ، زادت الثقة في البيانات. كما هو الحال مع أي مجموعة عينات جيدة، يجب أن تظل البيانات من العينة الأولى والعينة اللاحقة ثابتة. من المستحيل التقاط كل إجابة، لذا اعرض نتائج الاستطلاع في السياق، مثل جميع البيانات الإحصائية. 

في الفصلين الحادي عشر والثاني عشر بعنوان: “Regression Analysis” و”Common Regression Mistakes”

يستكمل الكاتب شرح كيف يساعد تحليل الانحدار الباحثين في تصنيف البيانات وفرز المتغيرات المتنافسة. تشير البيانات المهمة إلى أن التوتر يمكن أن يقتلك. لكن تحليل الانحدار يُظهر، على سبيل المثال، أنه في حين أن الضغط على مستوى الرئيس التنفيذي لا يقتل الناس، فإن التوتر يقتل الأشخاص العالقين في القيام بأعمال قليلة الأهمية.

تحليل الانحدار قوي عند استخدامه بشكل صحيح. يمكنه تحديد العلاقات بين المتغيرات والنتائج. يمكن أن يساعد في تحديد وتقييم الأنماط ذات المعنى، ولكن فقط إذا استخدم المحلل الأسئلة وإطار العمل الصحيح وحدد المتغيرات الصحيحة.

يخضع تحليل الانحدار لسبع حالات شائعة من سوء المعاملة:

  1. “استخدام الانحدار لتحليل علاقة غير خطية” – لا يعمل قياس العلاقات غير الخطية بدون تكييف خاص.
  2. “الارتباط لا يساوي السببية” – لا يمكن للإحصاءات إثبات أن “تغييرًا في أحد المتغيرات يسبب تغييرًا في الآخر”.
  3. “السببية العكسية” – السببية قد تعمل أو لا تعمل في كلا الاتجاهين. “الارتباط الإحصائي بين A وB لا يثبت أن A يسبب B”، على الرغم من أنه يمكن أن يتسبب، أو B يمكن أن يسبب A.
  4. “حذف التحيز المتغير” – يميل الأشخاص إلى استبعاد المتغيرات بناءً على تحيزهم الشخصي؛ الذي يجعل النتائج التحليلية بلا معنى.
  5. “المتغيرات التوضيحية شديدة الارتباط” – فقط لأن متغيرين مترابطين بقوة لا يعني أن الإحصائيات يمكنها الكشف عن طبيعة علاقتهما.
  6. “استقراء البيانات” – تكون النتائج صالحة فقط مثلًا؛ عندما تمثل عينة السكان فعليًّا أكبر عدد من السكان. يجب ألا يفترض المحللون ما لا تدعمه البيانات.
  7. “التنقيب في البيانات (متغيرات كثيرة جدًّا)” – وجود الكثير من المتغيرات يشوه النتائج. يمكن لأفضل الباحثين التفكير بشكل منطقي في شأن المتغيرات التي يجب تضمينها، وما هو مفقود وكيفية تفسير النتائج.

الفصل الثالث عشر بعنوان: Program Evaluation” 

يشرح الكاتب عن تقييم البرنامج، تحاول عملية تقييم البرنامج “قياس الأثر السببي لبعض التدخلات”. يمكن للمحللين جمع البيانات المساعدة وتقييمها لأغراض مهمة، ولكن يجب أن يأخذوا مجموعة متنوعة من مجموعات البيانات في الاعتبار. على سبيل المثال، هل يضمن التعليم في جامعة هارفارد النجاح؟ أو، إذا كان والدا الطالب قادرين على تحمل تكاليف تعليمIvy League، فهل يتمتع هذا الطالب بالفعل بميزة؟ هل سيحقق ذلك الطالب نفس النجاح بعد التحاقه بمدرسة حكومية؟ 

فى نهاية الكتاب قد تشعر أن نظرتك إلى الإحصاء والاحتمالات اختلفت، وهو ما كان يعمل عليه Wheelan. تسمح الإحصائيات بتحليل المخاطر، ويمكن أن تؤدي إلى إجابات لأسئلة مهمة، ويمكن أن تمكنك من اتخاذ قرارات أفضل. ولكن في جميع التحليلات الإحصائية، تحقق من حتى القياسات أو الحسابات الأكثر دقة.

منصة مدرسة البيانات لتعلم طرق تحليل البيانات

تقدم منصة مدرسة البيانات العديد من الدورات التعليمية والمقالات العلمية التى تهم كل متخصصى علم تحليل البيانات.

اذا كنت مهتم بتعلم تكنولوجيا تحليل البيانات، ننصحك بتفقد. جديد دورات تحليل البيانات بالموقع. فنحن نوفر لكم أقوى محاضرين متخصصين بمجال تحليل المعلومات والبيانات. وجميع المحاضرتين لديهم خبرات لسنوات عديدة بالمجال.

مقالات ذات صلة

التعليقات