כשאנשים שומעים את המילה "רגרסיה" הם לפעמים חושבים על
פסיכולוגיה ("הוא חזר אחורה לגיל הילדות") או על פוליטיקה ("המצב
במדינה הולך אחורה"). אבל בסטטיסטיקה רגרסיה היא לא חזרה אחורה – היא אחד
הכלים הכי חכמים שיש לנו כדי להבין איך דברים קשורים אחד לשני.
מהי רגרסיה?
רגרסיה היא שיטה שמנסה להסביר קשר בין משתנים.
המשתנה שאנחנו רוצים לנבא נקרא תלוי (כי הוא "תלוי"
בגורמים אחרים), והמשתנים שמסבירים אותו נקראים בלתי תלויים )כי הם מתנהגים כאילו הם לא סופרים אף אחד(.
דוגמה קלאסית:
- תלוי: מחיר דירה
🏠
- בלתי תלויים: גודל הדירה, מספר חדרים, מרחק
למרכז העיר, והאם יש שכנים שמנגנים מתופפים ב-3 בבוקר.
קו ישר בעולם עקום
ברגרסיה ליניארית אנחנו מנסים להתאים קו ישר לנתונים. כן,
אנחנו לוקחים את כל הכאוס של החיים ומציירים עליו קו ישר – כי לפעמים זה מספיק טוב.
הקו הזה אומר לנו בערך:
“כל פעם שאתה מוסיף מטר רבוע לדירה – המחיר עולה ב-X שקלים (בהנחה ששום דבר אחר לא משתנה).”
דוגמה מהמטבח
נניח שאתם מנסים להבין מה משפיע על הצלחת עוגת השמרים שלכם:
- תלוי: גובה העוגה אחרי האפייה
- בלתי תלויים: זמן לישה, טמפרטורת תנור, כמות שמרים, מצב
הרוח שלכם בבוקר.
אתם אוספים נתונים מ-20 ניסיונות אפייה (כן, זה תירוץ לאפות הרבה),
מריצים רגרסיה ומגלים:
- כל דקה נוספת בלישה → העוגה גבוהה יותר
ב-0.5 ס”מ.
- כל 10 מעלות מעל 180° → העוגה יורדת (כנראה נשרפת).
- מצב רוח טוב בבוקר? לא נמצא מובהק סטטיסטית…
אבל אולי זה פשוט כי במדגם קטן קשה למדוד אושר. 😄
זהירות – מלכודות בדרך
רגרסיה היא כלי נהדר, אבל אפשר ליפול בה בקלות:
- בלבול בין סיבה ותוצאה: אם
גילינו שצריכת גלידה קשורה לטביעה בים, זה לא אומר שגלידה מסוכנת – אולי פשוט
מדובר בקיץ.
- השמטת משתנים חשובים: אם
שכחתם להוסיף למודל את סוג הקמח, אל תתפלאו שהעוגה לא יוצאת.
- הערכת יתר: מודל טוב מסביר, לא חוזה עתידות. אם אתם
משתמשים ברגרסיה לנבא את תוצאות האירוויזיון ב-2030 – קחו את זה בעירבון
מוגבל.
סיכום
רגרסיה היא כמו מתכון טוב – היא עוזרת לנו להבין מה גורם למה, באיזה
מינון, ומה צפוי לקרות אם נשנה משהו. אבל כמו במטבח, צריך לדעת איך להשתמש בה: לא
לשים יותר מדי מרכיבים (מודל מסובך מדי), ולא פחות מדי (מודל חסר טעם).
בפעם הבאה שתשמעו "רגרסיה", אל תיבהלו – תחשבו על זה כמו קו
ישר שעוזר לעשות סדר בבלגן. ואולי גם תאפו עוגה בדרך.




