Tip:
Highlight text to annotate it
X
בהקלטה זו אני מעוניין לדבר על מה שבקלות יכול להחשב כאחד
בהקלטה זו אני מעוניין לדבר על מה שבקלות יכול להחשב כאחד
המשפטים (תאורמה) העמוקים והבסיסים בסטטיסטיקה
ואולי במתמטיקה בכלל
זהו משפט הגבול המרכזי.
זהו משפט הגבול המרכזי.
משפט זה אומר לנו כי אפשר להתחיל
עם כל התפלגות שיש לה תוחלת ושונות מוגדרות היטב.
ואם יש לה שונות מוגדרת היטב, אז יש לה
סטיית תקן מוגדרת היטב.
והיא יכולה להיות התפלגות רציפה או בדידה.
אשרטט התפלגות בדידה, רק משום שזה קל יותר לראות
לפחות לצורכי ההקלטה הזו.
הבה נאמר כי יש לנו פונקצית הסתברות
של התפלגות בדידה
ואני מעוניין להיות מאוד זהיר, כדי שזה לא ידמה בשום צורה
להתפלגות נורמאלית, מפני שאני רוצה להראות
את הכוח שיש למשפט הגבול המרכזי.
אז הבה נאמר שיש לי התפלגות.
הבה נאמר שהיא יכולה לקבל ערכים מ-1 ועד 6
1,2,3,4,5,6.
זו מעין קוביה משוגעת.
מאוד סביר לקבל 1
- הבה נשרטט קו זה ישר - ההסתברות מאוד גבוה
לקבל 1, ונאמר שזה בלתי-אפשרי לקבל 2
ונאמר שזו הסתברות סבירה לקבל 3 או 4.
נאמר שזה בלתי-אפשרי לקבל 5.
ונאמר שזה מאוד סביר לקבל 6.
הרי פונקציית ההסתברות שלי.
אם הייתי מעוניין לצייר את התוחלת (ממוצע), זה סימטרי, אז אולי התוחלת
צריכה להיות ככה.
התוחלת תהיה באמצע.
אז התוחלת תהיה ממש כאן.
סטיית התקן אולי תראה
-- אני אהיה ככה רחוק מעל ומתחת לתוחלת.
אך זו ההתפלגות הבדידה שלי.
פונקציית התפלגות
כעת, מה שאני הולך לעשות: במקום סתם לקחת תצפיות (דגימות)
מהמשתנה המקרי שמתאר את פונקציית ההסתברות הזו
אני הולך לקחת קבוצות של תצפיות - בעברית: מדגם
אך אני הולך למצע (לעשות ממוצע) של המדגמים
ואז לראות את השכיחות של הממוצע שאני מקבל.
וכשאני אומר ממוצע אני מתכוון לתוחלת
הבה נאמר -- ותנו לי להגדיר משהו -- הבה נאמר
שגודל המדגם שלי.. אני יכול לבחור בכל גודל.. אך הבה נאמר
שנתחיל מגודל מדגם של 4, כלומר n=4.
ומה שזה אומר הוא שאני הולך לקחת 4
דגימות מזה.
אז הבה נאמרה שבפעם הראשונה אני 4 דגימות.
אז גודל המדגם שלי הוא 4.
נאמר שאני מקבל 1, עוד 1, נאמר
שאני מקבל 3 ואני מקבל 6
אז כאן זהו המדגם הראשון שלי בגודל 4.
אני יודע שהמונחים כאן יכולים להיות מבלבלים
כי זה מדגם שמורכב מ- 4 דגימות. (באנגלית זה נשמע מבלבל יותר)
אך כשאנו מדברים על התוחלת של המדגם
ועל ההתפלגות של תוחלות המדגמים - שאנו עומדים לדבר על זה עוד ועוד
בהקלטות הבאות - בד"כ המדגם
מתייחס לקבוצה של דגימות (תצפיות) מההתפלגות.
וגודל המדגם אומר לנו כמה דגימות ממש לקחנו
מתוך ההתפלגות.
אבל המינוח יכול להיות מבלבל
כי בקלות אפשר לראות אחד מאלה כדגימה.
אבל אנו לוקחים 4 דגימות מכאן.
יש לנו גודל מדגם של 4.
ואני הולך לעשות להם ממוצע.
אז הבה נאמר שהתוחלת -- אני הולך להיות מאוד זהיר כשאני
אומר "ממוצע" -- התוחלת של המדגם הראשון שלי בגודל 4, היא מה?
1 ועוד 1 שווה 2
2 ועוד 3 שווה 5
5 ועוד 6 שווה 11
11 חלקי 4 שווה 2.75
זוהי תוחלת המדגם הראשון שלי, בגודל 4.
הבה נעשה עוד אחד.
המדגם השני שלי בגודל 4.
הבה נאמר שאני מקבל 3, 4, נאמר שאני מקבל עוד 3
ושאני מקבל 1.
במקרה לא קיבלת 6 הפעם.
ונשים לב שאיני יכול לקבל 2 או 5.
זה בלתי-אפשרי להתפלגות שהגדרנו.
הסיכוי לקבל 2 או 5 הוא אפס
אז אני לא יכול לקבל איזשהו 2-ים או 5-ים כאן.
אז עבור המדגם השני שלי בגודל 4, התוחלת היא --
אז התוחלת של המדגם השני שלי תהיה 3 ועוד 4 שווה 7
7 ועוד 3 שווה 10 ועוד 1 שווה 11
11 חלקי 4 שווה 2.75
תנו לי לבצע עוד אחד, מפני שאני באמת רוצה שזה יהיה ברור
מה שאנו עושים פה
אז אעשה עוד אחד - למעשה אנו הולכים לעשות מלאנתלאפים
יותר, אבל תנו לי רק לעשות עוד אחד בפרוט.
אז הבה נאמר שבמדגם השלישי בגודל 4 אני מקבל
אני ממש הולך לקחת 4 דגימות
כך שהמדגם שלי יורכב מ-4 דגימות מההתפלגות
המוזרה המקורית הזאת
נאמר שאני מקבל 1, 1, 6 וגם 6.
וכך התוחלת של הדגימה השלישית שלי תהיה 1 ועוד 1 שווה 2
2 ועוד 6 שווה 8
8 ועוד 6 שווה 14
14 חלקי 4 שווה 3.5
14 חלקי 4 שווה 3.5
וכשאני מוצא את כל התוחלות של המדגמים -- כך לכל אחד
מהמדגמים בגודל 4 שלי -- וכשאני עושה זאת
אני אשרטט כל אחד מהם, לפי שכיחות
וזה הולך להמם אותך בעוד כמה שניות.
אז אני אשרטט כל אחד מהם, לפי שכיחות
אז אני אומר, בסדר, במדגם הראשון שלי
התוחלת הראשונה שלי, הייתה 2.75
אז אני משרטט את השכחיות
שאני מקבל לכל תוחלת של מדגם
אז 2.75, אני קיבלתיאת זה פעם אחת.
אז אני אצייר לבנה קטנה כאן.
ואז לזה בדיוק כאן.
ופעם השניה אני גם כן קיבלתי 2.75.
זה 2.75 שם.
אז קיבלתי את זה פעמיים.
אז אני אשרטט את השכיחות כאן.
אח"כ קיבלתי 3.5.
אז כל הערכים האפשריים שאני יכול לקבל, למשל 3, אני יכול לקבל
3.25 אני יכול לקבל 3.5.
אז אח"כ קיבלת את 3.5 אז אני אשרטט את זה בדיוק כאן.
ומה שאני אעשה, אני אמשיך
לקחת מדגמים כאלה.
אולי אני אקח 10,000 מדגמים כאלה.
אז אני הולך להמשיך ולדגום
עד שאגיע ל- 10,000
אני אעשה קבוצה של כאלה.
וכעבור זמן כל אחד מהאלה
אני אעשה נקודה משום שאני צריך להתרחק מהתמונה (זום אאוט).
אז אם אני אביט בזה ככה, כעבור זמן, עדיין
יש לזה את כל הערכים שזה עשוי לקבל בהמשך.
למשל, 2.75 יכול להיות שם.
אז הנקודה הראשונה הזו תהיה זו בדיוק כאן
היה תהיה בדיוק שם, והשניה תהיה בדיוק
שם, ואז זאת ב- 3.5 תהיה בדיוק שם.
אבל אני אעשה זאת 10,000 פעמים
אז יהיו לי 10,000
הבה נאמר שכשאני עושה זאת
אני ממשיך לשרטט אותם.
אני אמשיך לשרטט את השכיחויות.
את אמשיך לשרטט אותן שוב
ושוב ושוב.
ואנו נראה שככל שאני אני לוקח יותר ויותר
מדגמים בגודל 4.
הולך להיות לי משהו שיתחיל להראות
בערך יראה כמו התפלגות נורמאלית
אז כל נקודה שכזו מייצגת תוחלת-דגימה אחת
אז ככל שאני ממשיך להוסיף בעמודה זו את התוחלות הללו
אני ממשיך לקבל את תוחלת המדגם 2.75.
אז כעבור זמן אני אתחיל לקבל משהו שיתחיל להראות
בערך כמו התפלגות נורמאלית.
וזה דבר מגניב לגבי משפט הגבול המרכזי.
אז הגבול המרכזי - וזהו המקרה - אז בכתום
זהו המקרה ל- n=4
זה היה גודל מדגם 4.
אם הייתי עושה אותו הדבר לגודל מדגם 20.
כך שבמקרה זה, במקום לקחת רק 4 דגימות
מההתפלגות המשוגעת המקורית שלי, הייתי לוקח 20
דגימות מהמהשתנה-המקרי ואני ממצע אותם 20
ואז אני משרטט אותם
אז באותו מקרה, אניאקבל התפלגות
שתראה ככה.
ואנו נדבר על זה בהקלטות נוספות.
אך מתברר, שאם הייתי משרטט 10,000 תוחלות של מדגמים
כאן, אני אקבל משהו -- שני דברים:
זה יהיה אפילו יותר קרוב טוב יותר להתפלגות
נורמאלית.
ואנו נראה בהקלטות בעתיד, שזה למעשה
יהיה קטן יותר -- ובכן, תנו לי להיות ברור - יהיה לזה
אותה התוחלת.
אז זוהי התוחלת.
ולזה תהיה אותה תוחלת.
תהיה לזה סטיית תקן קטנה יותר.
אז כדאי שאשרטט זאת מלמטה
כי זה די נערם
אחד מקבל 1 ואז לעוד מקרה, ועוד מקרה.
אבל זה יותר ויותר יתקרב
להתפלגות נורמאלית.
אז המציאות היא -- וזה מה שסופר-מגניב לגבי
משפט הגבול המרכזי -- ככל שגודל המדגם גדל
ואפשר לומר ככל שזה שואף לאינסוף,
אבל לא חייבים להתקרב כל-כך לאינסוף כדי להתקרב
להתפלגות נורמאלית.
אפילו אם יש לנו גודל מדגם של 10 או 20, אז כבר
מתקרבים להתפלגות הנורמאלית.
למעשה, קירוב שהוא בערך כמו
בחיי היום-יום שלנו.
אך מה שמגניב הוא שאנו יכולים להתחיל מאיזו התפלגות
מטורפת, כן?
אין לזה קשר להתפלגות הנורמאלית.
אך אם יש לנו גודל מדגם -- זה היה n שווה 4 -- אבל אם אנו
לקוחים מדגם בגודל n שווה 10 או n שווה 100, ואנו
ואנו לוקחים 100 כאלה, במקום 4 כאן ומחשבים להם תוחלת
ואז משרטטים את שכיחויות התוחלות
ואז אנו לוקחים שוב 100, ומחשבים את התוחלת שלהם
משרטטים אותם שוב.
ואם נעשה זאת מספר פעמים, למעשה,
אם נעשה זאת אינסוף פעמים
אנו נמצא -- במייחוד אם יש לנו גודל מדגם אינסופי -- אנו נמצא
התפלגות נורמאלית מושלמת.
זה מה שמטורף.
וזה לא מתקיים רק בלקחת אותה תוחלת מדגם.
כאן אנו לקחנו כל פעם תוחלת מדגם.
אבל אפשר לקחת גם את הסכום של המדגם.
משפט הגבול המרכזי עדיין היה מתקיים.
אך זה מה שכה מועיל במשפט.
מפני שבחיים, יש כל מיני תהליכים שם בחוץ
חלבונים מתנגשים זה בזה, אנשים עושים
דברים משוגעים, בני-אדם מתקשרים בדרכים משונות.
ואיננו יודעים את פונקציית ההתפלגות
של אף אחד מהדברים האלה
אך מה שמשפט הגבול המרכזי אומר לנו זה
שאם אנו נאסוף קבוצה של פעולות כאלה יחד
בהנחה שיש להן אותה ההתפלגות
אם אם ניקח את התוחלת של כל הפעולות האלה גם יחד ואם נשרטט
את השכיחויות של התוחלות
אנו נקבל את ההתפלגות הנורמאלית.
וזה מדוע ההתפלגות הנורמאלית מופיעה
כה הרבה בסטטיסטיקה
ומודע, בכנות, זה קירוב טוב לסכום או לתוחלת של הרבה
תהליכים
התפלגות נורמאלית.
בהקלטה הבאה אנו נראה
שזוהי מציאות
כך שככל שאנו מגדילים את גודל המדגם
ככל שמגדילים את n וככל שלוקחים הרבה תוחלות מהמדגמים
נקבל גרף שכיחויות שדומה מאוד
להתפלגות הנורמאלית.
להתפלגות הנורמאלית.