יום שישי, 1 במאי 2026

הטעות הסטטיסטית הכי יקרה שאתם עושים — ואתם אפילו לא יודעים

תארו לעצמכם שאתם מנהלים מסעדת שף. בסוף הערב, אתם עוברים על הצלחות שחזרו מהשולחנות למטבח כדי להבין מה הלקוחות אהבו. אתם רואים שהצלחות של הסטייק חוזרות ריקות לגמרי, ומחליטים "הסטייק הוא המנה המנצחת שלנו, בואו נשקיע בו את כל התקציב!"":

נשמע הגיוני? רק אם אתם מתעלמים מהנתונים החסרים: אלו שכלל לא הזמינו את הסטייק כי הוא יקר מדי, או אלו שהחזירו את המנה למטבח אחרי ביס אחד כי היא הייתה חרוכה (והצלחת לא "חזרה" ריקה, היא נזרקה לפח).

ביס סטטיסטי: ב-Data Science- נתונים חסרים (Missing Data) הם לא סתם חורים בטבלה. הם "התבלין" שיכול להרוס לכם את כל המנה אם לא תדעו איך לטפל בו.

שלושת סוגי ה"חוסר" (ומה קורה במטבח שלכם):

כדי להציל את התבשיל, אתם חייבים לאבחן איזה סוג חוסר יש לכם בצלחת:

 .1חסר לגמרי באקראי (MCAR – Missing Completely At Random)  

במטבח: המלצר הפיל בטעות את דף ההזמנה לרצפה והוא נרטב. אין קשר בין המנה שהוזמנה לבין העובדה שהדף נהרס. זה יכול היה לקרות לסטייק, לפסטה או לקינוח. הנזק: איבוד מידע בלבד. המדגם קטן יותר, אבל לא מוטה.

 .2חסר באקראי  (MAR –Missing At Random)

במטבח: לקוחות בשולחנות ה-VIP לא ממלאים משוב על הקינוח. למה? כי הם עסוקים בשיחה. החוסר לא תלוי בטעם של הקינוח, אלא במשתנה אחר שאנחנו מכירים (סוג השולחן). הנזק: אם ננתח רק את המשובים הקיימים, נקבל דעה רק של שולחנות "רגילים". התמונה מעוותת.

 .3 חסר שאינו באקראי   (MNAR –Missing Not At Random)   

במטבח: לקוחות לא כותבים ביקורת על המרק. למה? כי הוא היה כל כך מלוח שהם פשוט השאירו אותו בצד ויצאו מהמסעדה בכעס. החוסר תלוי ישירות בערך החסר (הטעם הנורא). הנזק: קטלני. אתם תחשבו שהמרק "בסדר" כי אין תלונות כתובות, בזמן שהעסק קורס.

המתכון לפתרון: איך מטפלים בחוסר?

אל תזרקו את כל התבשיל לפח (אל תמחקו שורות באופן אוטומטי). הנה ארבעה פתרונות מהקל לכבד:

  1. מחיקה חכמה :(Listwise Deletion)
    • מתי? רק כשהחוסר הוא MCAR (אקראי לגמרי) ואחוז החוסר נמוך מאוד (מתחת ל-5%).
    • זהירות: אל תעשו את זה אם יש לכם מעט נתונים.
  2. אימפוטציה פשוטה :(Simple Imputation)
    • איך? מילוי החסר על ידי הממוצע או החציון של שאר המנות.
    • הבעיה: זה משטח את הנתונים ומעלים את השונות (Variance). זה כמו לשים מלח בכמות ממוצעת על כל המנות – חלק יהיו מלוחות מדי וחלק תפלות.
  3. אימפוטציה מרוב: (Multiple Imputation)
    • איך? שימוש במודל סטטיסטי שחוזה את הערך החסר על בסיס שאר הנתונים (למשל, לחזות את שביעות הרצון מהקינוח לפי מחיר המנה העיקרית והזמן שהלקוח ישב במסעדה).
    • למה? זה הפתרון המדעי המדויק ביותר לנתוני MAR.
  4. יצירת "דגל" חוסר: (Missing Indicator)
    • איך? הוסיפו עמודה חדשה שאומרת "האם הנתון היה חסר?".
    • הקסם: לפעמים עצם העובדה שהלקוח לא ענה היא המנבא הכי טוב לנטישה שלו. אל תסתירו את החור – תהפכו אותו למשתנה.

הטיפ של השף: דאטה חסר הוא לא תקלה טכנית – הוא התנהגות אנושית. אם תבינו למה הלקוחות שלכם "שותקים" בנתונים, תגלו את ההזדמנויות הכי גדולות לצמיחה.

מה הMissing Data-  שרודף אתכם בארגון? ספרו לי בתגובות!

#ביסים_של_סטטיסטיקה #DataScience #DataAnalysis #Analytics #MissingData #MachineLearning #BusinessInsight 

הטעות הסטטיסטית הכי יקרה שאתם עושים — ואתם אפילו לא יודעים

תארו לעצמכם שאתם מנהלים מסעדת שף. בסוף הערב, אתם עוברים על הצלחות שחזרו מהשולחנות למטבח כדי להבין מה הלקוחות אהבו. אתם רואים שהצלחות של הסטי...