דיאגרמת קופסה – מתי כדאי?

דיאגרמת קופסה - boxplot
דיאגרמת הקופסא היא ויזואליזציה אלגנטית להצגת התפלגויות, אבל האם היא תמיד משיגה את מטרתה?

שתפו:

דיאגרמת הקופסה (המכונה boxplot  ולעיתים box and whisker plot) היא אמצעי ויזואלי המתאר את הטווח של הנתונים, מחולק לארבעה חלקים על ידי החציון והרבעונים של ההתפלגות.קצות הקופסה הם שני הרבעונים, והיא מחולקת לשניים על ידי החציון. הקווים (או ה-"שפמים") נמתחים ימינה ושמאלה אל הערך המינימלי והערך המקסימלי של הנתונים, או אל הנקודה המגדירה את הגבול בין שמעבר לו נתונים נחשבים כחריגים.

בדוגמה הספציפית הזו, המציגה את הגילאים של חלק מנוסעי הטיטניק, הגיל המינימלי הוא קצת יותר מאפס (תינוק בן 5 חודשים). הרבעון התחתון הוא בערך 20, החציון הוא בערך 28 והרבעון העליון הוא בערך 38. המשמעות היא כי רבע מהנוסעים הם בגילאי 0 עד עד 20, רבע בגילאי 20 עד 28, רבע בגילאי 28 עד 38, והשאר בגילאי 38 ומעלה. כמו כן ניתן לראות כי הגילאים של נוסעים שגילם גבוה מ-65 נחשבים כגילאים חריגים ביחס לגילאים שאר הנוסעים.

דיאגרמת הקופסה שימושית לההשוואה  של מספר התפלגויות, אולם כמו לכל דיאגרמה, יש לה גם חסרונות.

החיסרון העיקרי הוא כי די קשה להבין את ה-boxplot, בוודאי בהשוואה לסוגים אחרים של וויזואליזציה. ה-boxplot דורש מהקהל להבין מושגים אבסטרקטיים יחסית, חציון ורבעונים, כאשר לא נדרש צורך אמיתי בכך. אם לא מדובר בקהל של סטטיסטיקאים המיומנים בקריאת boxplots, יש צורך להסביר את מבנה הדיאגרמה ואת המושגים שהיא מייצגת לפני שדנים במשמעות של הנתונים עצמם. ואין צורך בכך כי יש אלטרנטיבות טובות יותר להצגת נתונים בהם החציון ושאר האחוזונים נתפשים באופן אינטואיטיבי.

טענה נוספת נגד ה-boxplot היא שאין בה הגיון וויזואלי. לקופסה יש שטח/נפח בניגוד לשפמים, ולכן היא נתפשת כמייצגת יותר נתונים. אולם, כל חלק של ה-boxplot (שני חצאי קופסה ושני שפמים) מייצג בדיוק את אותה כמות נתונים – כל אחד מהם מייצג רבע מכלל הנתונים (פרט לחריגים). בנוסף, שני חלקי הקופסה נתפשים ויזואלית כחלק אחד, כלומר ההתרשמות היא כי הנתונים מתחלקים לשלוש קבוצות ולא לארבע. שלישית, אנשים נוטים לקשר אורך עם כמות, ושוב, ה-boxplot מתעלם מכך (בדוגמה שלי, השפם הימני ארוך יותר מאורך הקופסה, בעוד שהוא מייצג חצי מכמות הנותנים שמייצגת הקופסה).

לכן, האם כדאי להשתמש בדיאגרמת הקופסה? כמו תמיד, אין תשובה אחת נכונה. בכאשר מדובר בתוכן המיועד לקהל הרחב, עדיף לדעתי לוותר. במאמרים ועבודות אקדמיות, מצגות בכנסים מקצועיים וכדומה, כדאי לשקול את האפשרות להשתמש בדיאגרמות קופסה, ולהשוות אותה לאלטרנטיבות.

לשיחת ייעוץ ללא תשלום השאירו פרטים

אולי יעניין אתכם גם:

p-value
מאמרים

מהו ה-p-value

בכתבה על ניסוי קליני לחיסון נגד נגיף ה-HIV (שנערך בשנת 2009) שהופיעה בוול-סטריט גו'רנל, דווח כי למרות שבניסוי נצפתה יעילות של 26%, "ההסתברות כי התוצאה

להמשך »