fbpx

مراجعة لكتاب “Data Smart” البيانات الذكية

كتاب Data Smart

بعنوان Data Smart: Using Data Science to Transform Information into Insight كتب رئيس علماء البيانات في موقع John W. Foreman ، Mail Chimp.com عن كيفية تحويل المعلومات إلى رؤًى باستخدام علم البيانات. اتخذ الكاتب بعض المنهجيات ليشرح كيفية استخدام علم البيانات لتحويل المعلومات إلى رؤًى واضحة وقرارات. يعد هذا الكتاب دليلًا إرشاديًّا جيدًا لاتخاذ خطواتكم الأولى في هذا المجال، إذا كنت تبحث عن حلول تقنية وطريقة للتعامل مع البيانات بشكل محترف فأنصحك بقراءة هذا الكتاب، لكن إن كنت تبحث عن نظريات أو دراسات فقد تصاب بخيبة الأمل قليلًا أثناء قراءتك له.

يشرح المؤلف فى كتابه كيفية تنظيف البيانات دون الاحتياج إلى تطوير مهاراتك فى تعلم البرمجيات المخصصة لذلك. ويقترح الكاتب أسلوبًا يجعل المعلومات فى متناول يدك حيث يوظف دائمًا الأساسيات البسيطة في معالجة البيانات للتعامل مع المشكلات الكبيرة. كما بدأ فى مقدمة كتابه بشرح الأسباب وراء تعامل الشركات مع البيانات بشكل خاطئ، يوضح أيضًا أن الكتاب يتناول الطريقة الصحيحة فى التعامل مع البيانات.

استخدم الكاتب الرسومات والصور ليبقى القارئ على اتصال بالمفاهيم المشروحة والتمارين المقدمة، حيث شرح Foreman بالتفاصيل القصة المنشورة عن كيفية استخدام سلسلة البيع بالتجزئة المستهدفة لنموذج ذكاء اصطناعي للتنبؤ بوقت التحميل وإرسال المواد المباعة.

كما عرَّف علم البيانات بأنه “تحويل البيانات باستخدام الرياضيات والإحصاء إلى رؤًى وقرارات” وأضاف أن هذا الكتاب سيساعد القارئ على فهم علم البيانات بشكل أوضح، وسيضع أمامه مفاهيم مختلفة. يشرح هذا الكتاب تقنيات برنامج  Microsoft Excel، يبدأ Foreman بعرض الصور والرسوم لتوضيح التقنيات حول جداول البيانات. فى أول تسعة فصول من الكتاب يعرض تمارين تساعد فى فهم كيفية التعامل مع جداول البيانات على الإكسل.

حيث يشرح لك في الفصل الأول مكونات البرنامج الأساسية وكيفية عملها، كيف تقوم بنسخ البيانات والانتقال بين الخلايا. ويشرح أيضًا كيفية إدراج الرسوم البيانية، وتحديد موقع قوائم البحث واستبدالها. شرح أيضًا ما هي الصيغة التي تحدد بها القيمة، وكيف تقوم بفرز وتصفية البيانات.

يأخذك الفصل الثاني إلى k-means وهى خوارزمية تستخدم فى عملية التصنيف، بأمثلة حول التسويق وسوق الإعلانات يشرح Foreman كيفية استخدامها لتصنيف قاعدة بيانات عملائك. يشرح أيضًا كيفية تحديد القيم الواجب قياسها والتعامل معها فى إطار مجموعات وكيفية تصنيف المجموعات وعلى أي أساس، وكيفية وضعها فى إكسل. 

ينتقل في الفصل الثالث إلى شرح نموذج Naïve Bayes لتصنيف المستندات. معتمدًا على الذكاء الاصطناعى لعمل تنبؤات باستخدام البيانات التي تم تصنيفها بالفعل، حيث يقوم بتصنيف المستندات الجديدة بناء على معرفته.

يشرح مقدمة نظرية الاحتمالات والاحتمالات الشرطية، والاحتمال المشترك، وأيضًا استخدام قاعدة Bayes لإنشاء نموذج ذكاء اصطناعى، وحساب الاحتمالات وإزالة علامات الترقيم الداخلية. 

يستمر فى شرح العديد من المفاهيم الرئيسة في مجال علم البيانات، يضرب مثلًا في الفصل الرابع بشركة كوكاكولا ليشرح عن نموذج التحسين. يطرح تساؤلات تجيب عليها الأمثلة وكان أبرز هذه الاسئلة، لماذا يجب أن يعرف علماء البيانات عن عملية التحسين؟

فى الفصل الخامس بعنوان: تحليل الرسوم البيانية الشبكية، يبدأ بشرح ما هو الرسم البياني للشبكات وكيفية القيام به، ويقدم تصورًا بسيطًا للرسم البياني. يشرح كيفية تصميم الرسم البياني أيضًا. كما يشرح خطوات عمل الرسم البياني، البيانات وتحديدها وورقة النتيجة. يُطلق على المفهوم الرئيسي الذي يسمح لك بالتعامل مع مجموعات العملاء بهذه الطريقة العَلاقية الرسم البياني للشبكة. الرسم البياني للشبكة، كما أن شرح Foreman، هو طريقة بسيطة لتخزين وتصور الكيانات (مثل العملاء) المتصلة (عن طريق بيانات الشراء على سبيل المثال). 

أثناء قراءتك لهذا الكتاب لا أنصحك بأن تتخطى صفحات فيه بل حاول أن تقرأه جيدًا، أكثر من مرة لفهم الخطوات جيدًا وخاصة الفصول الأولى حيث تضم بعض الخطوات التى بنى عليها المؤلف شرحه فيما بعد. فنجد أنه بمقدمة هذا  الفصل قد استمر Foreman في مناقشة تحديد البيانات وتحليلها، يستمر هذا الفصل بنفس الأمثلة المطروحة في الفصل الثاني حول التسويق وسوق الإعلانات وتحديد قاعدة بيانات عملائك  بناءً على مشترياتهم. فى هذا الجزء حاول أن تسأل أكثر، انظر إلى عملائك بطريقة أكثر ارتباطًا. يشتري العملاء أشياء متشابهة، وبهذه الطريقة، فهم مرتبطون بعضهم ببعض. يسهِّل عليك هذا النمط أن تجد مجتمعًا مشتركًا لعملائك، ومن ثم تقوم بعمل الرسوم البيانية والجداول الخاصة بك.

يبدأ الفصل السادس بشرح المزيد عن الذكاء الاصطناعي الخاضع للإشراف، حيث يمكنك استخدام الذكاء الاصطناعي في التنبؤ، كما ذكر فى مقال نشر أخيرًا لـ Forbes، أنه تم الإبلاغ عن أن Target قد أنشأت نموذجًا للذكاء الاصطناعي (AI) يمكن أن يتنبأ بالوقت الذي يكون فيه العميل “حامل” ويستخدم هذه المعلومات للبدء في استهدافهم بالتسويق والعروض المتعلقة بالحمل. الآباء الجدد ينفقون الكثير من المال على مستلزمات تربية الأطفال، وما هو أفضل وقت لتحويلهم إلى عملاء مخلصين أكثر من قبل ظهور الطفل؟ سوف يشترون “حفاضات” المتجر لسنوات. 

كما يشرح أيضًا الانحدار الخطي، حيث يتم توقع العملاء الحوامل عن طريقه. كما يوضح كيفية التنبؤ ببعض البيانات الجديدة وقياس الأداء، وإحصائيات الانحدار الخطي.

فى الفصل السابع يشرح Foreman حول كيفية نمذجة المجموعات، كما شرح هو قائلًا: فى النسخة الأمريكية من البرنامج التلفزيوني الشهير The Office، يشتري الرئيس مايكل سكوت البيتزا لموظفيه. يتأوه الجميع عندما يعلمون أنه اشترى للأسف بيتزا من Pizza by Alfredo بدلًا من Alfredo’s Pizza. على الرغم من أنها أرخص، إلا أن البيتزا من Alfredo’s Pizza تبدو سيئة جدًّا. ردًّا على احتجاجاتهم، سأل مايكل موظفيه سؤالًا: هل من الأفضل تناول كمية صغيرة من البيتزا الجيدة حقًّا أم الكثير من البيتزا السيئة حقًّا؟ بالنسبة إلى العديد من تطبيقات الذكاء الاصطناعي العملية، يمكن القول: إن الإجابة هي الأخيرة.

كما قام فى  الفصل السابق بشرح كيفية استخدام الذكاء الاصطناعي في عمل نموذج للتنبؤ بالتسوق للأسر الحوامل، فماذا لو قام ببناء مجموعة من الاحتمالات وسمح للعملاء بالتصويت على ما إذا كانت المرأة حاملًا. سيتم بعد ذلك استخدام حصيلة الأصوات كتنبؤ فردي، وهو ما يسمى بنمذجة المجموعات.

يأخذ الفصل الثامن عنوان التوقع، ويبدأ فيه المؤلف بشرح عملية التوقع والفرق بينها وبين التنبؤ، كما رأيت في الفصل الثالث والفصلين السادس والسابع يمكنك أن تتنبأ بقيمة أو تصنف ملاحظة، باستخدام نموذج معين على البيانات.

التوقع عملية مماثلة. بالتأكيد، يمكنك التوقع بدون بيانات، ولكن في عملية التوقع الكمي، يتم استخدام البيانات السابقة لتتوقع نتيجة مستقبلية. في الواقع، يتم استخدام جزء من الأساليب السابقة، مثل: الانحدار المتعدد (كما هو مشروح في مقدمة الفصل السادس)، في كلا التخصصين (التوقع والتنبؤ). ولكن يختلف التعلم الآلي الخاضع للإشراف (التنبؤ) والتوقع بشكل كبير في مساحات المشكلات الأساسية الخاصة بهم.

وتكمن مشاكل التوقع بأخذ بعض نقاط البيانات بمرور الوقت (المبيعات، الطلب، العرض، الناتج المحلي الإجمالي، انبعاثات الكربون، أو السكان على سبيل المثال) وإسقاط تلك البيانات في المستقبل. حيث يمكن أن تكون البيانات المستقبلية خارج حدود الماضي المرصود. وهذه هي مشكلة التوقع: على عكس الفصلين السادس والسابع حيث تتنبأ بالسوق الشرائي للحوامل. تستمر النساء بشكل أو بآخر في شراء نفس الأشياء، يتم استخدام التوقع في السياقات التي لا يبدو فيها المستقبل مثل الماضي.

الفصل التاسع يناقش المزيد حول القيم المتطرفة وكيفية إنشاء الرسم البياني، وأيضًا كيفية الكشف الخارجة عن الرسم البياني. كما يوضح Foreman أن القيم المتطرفة هي النقاط الفردية في مجموعة البيانات — تلك التي لا تتلاءم بطريقة ما. أي الكميات التي كانت إما كبيرة جدًّا وإما صغيرة بحيث لا تأتي بشكل طبيعي من نفس العملية، مثل الملاحظات الأخرى في مجموعة البيانات. يمكن لهذه القيم تحريك المتوسطات والعبث بقياسات الانتشار في البيانات. 

القيم المتطرفة لديها موهبة في إفساد نماذج التعلم الآلي. على سبيل المثال، في الفصلين السادس والسابع ، نظرت في توقع العملاء الحوامل بناءً على بيانات الشراء الخاصة بهم. ماذا لو أخطأ متجر في تشفير بعض العناصر على رفوف الصيدلية وكان يسجل مشتريات الفيتامينات المتعددة كمشتريات من حمض الفوليك؟ العملاء الذين يعانون من نواقل الشراء المعيبة هم القيم المتطرفة التي تغير علاقة شراء الحمل بحمض الفوليك بطريقة تضر بفهم نموذج الذكاء الاصطناعي.

كتب Foreman، “بعد قضاء الفصول التسعة السابقة في حقن Excel مباشرةً في عروقك، سأخبرك الآن بإسقاطه. حسنًا، ليس لكل شيء، ولكن لنكن صادقين، فإن Excel ليس مثاليًّا لجميع مهام التحليلات”. يتحدث الكاتب خلال تسعة فصول عن برنامج Excel ويعطي القارئ التقنيات والتعريفات اللازمة، ينتقل في الفصل الأخير إلى كيفية إسقاط هذه المعلومات على لغات البرمجة، مستعينًا بلغة البرمجة R. 

يبدأ Foreman الفصل العاشر بشرح بعض تحليلات الفصول السابقة في R بدلًا من Excel – نفس البيانات، ونفس الخوارزميات، لكن بيئة مختلفة. لكن هذا الفصل لا يعد برنامجًا تعليميًّا تمهيديًّا لـ R.

إذا كنت تبحث عن كتاب يشرح لك تطبيقات حول البحث عن البيانات؛ فهذا هو الكتاب المنشود. ستساعدك التمارين خطوة بخطوة فى البحث عن طريقة للبدء في استخدام التقنيات والممارسات المرتبطة بعلوم البيانات.

منصة مدرسة البيانات لتعلم طرق تحليل البيانات

تقدم منصة مدرسة البيانات العديد من الدورات التعليمية والمقالات العلمية التى تهم كل متخصصي علم تحليل البيانات.

اذا كنت مهتم بتعلم تكنولوجيا تحليل البيانات، ننصحك بتفقد. جديد دورات تحليل البيانات بالموقع. فنحن نوفر لكم أقوى محاضرين متخصصين بمجال تحليل المعلومات والبيانات. وجميع المحاضرتين لديهم خبرات لسنوات عديدة بالمجال.

مقالات ذات صلة

التعليقات