How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

מתרגם: hila scherba מבקר: Ido Dekkers בואו אני אראה לכם משהו. (וידאו) ילדה: "אוקיי, זה חתול שיושב על מיטה. הילד מלטף את הפיל. אלה אנשים שעולים על מטוס. זה מטוס גדול." זו ילדה בת שלוש שנים מתארת מה היא רואה בסדרת תמונות. אולי יש לה עוד הרבה ללמוד על העולם, אבל היא כבר מומחית במשימה אחת מאוד חשובה: להבין מה היא רואה. החברה שלנו היא יותר מתקדמת טכנולוגית מאי פעם. אנחנו שולחים אנשים לירח, אנחנו מייצרים טלפונים שמדברים אלינו או מתאימים אישית תחנות רדיו שינגנו רק מוסיקה שאנחנו אוהבים. ועדיין, המכונות והמחשבים המתקדמים ביותר שלנו עדיין מתקשים במשימה הזו. אז אני פה היום כדי לתת לכם דו"ח התקדמות על ההתפתחויות האחרונות במחקר שלנו על ראיית מחשב, אחד מהטכנולוגיות החלוציות והמהפכניות ביותר במדעי המחשב. נכון, יש לנו אבטיפוס של מכוניות שיכולות לנסוע בעצמן, אבל בלי ראייה חכמה, הן לא יכולות באמת להבדיל בין שקית נייר מקופלת על הכביש, שאפשר לנסוע עליה, ואבן בגודל הזה, שצריך להימנע ממנה. ייצרנו מצלמות מגהפיקסל מדהימות, אבל לא הצלחנו להביא ראייה לעיוורים. מזל"טים יכולים לטוס מעל שטח עצום, אבל חסרי טכנולוגיית ראייה מספקת בשביל לעזור לנו לעקוב אחרי השינויים ביערות הגשם. מצלמות אבטחה נמצאות בכל מקום, אבל הן לא מתריעות כשילד טובע בבריכה. תמונות וסרטונים הופכים לחלק בלתי נפרד מהחיים הגלובליים. הם נוצרים בקצב שהוא מעל לכל מה שכל אדם, או קבוצות של אנשים, יכולים לקוות לצפות בהם, ואתם ואני תורמים לזה בשיחת TED הזו. אבל התוכנה המתקדמת ביותר שלנו עדיין מתמודדת בלהבין ולנהל את התוכן העצום הזה. אז במילים אחרות, במשותף כחברה, אנחנו מאוד עיוורים, כי המכונות החכמות ביותר שלנו עדיין עיוורות. אתם יכולים לשאול - "למה זה כל כך קשה?" מצלמות יכולות לקחת תמונות כמו זו, על ידי המרת אורות לשטח דו מימדי של מספרים, הידועים כפיקסלים, אבל אלו רק מספרים חסרי חיים. הם לא נושאים איזושהי משמעות בעצמם. כמו שלשמוע זה לא אותו דבר כמו להקשיב, לקחת תמונות זה לא אותו דבר כמו לראות, ובלראות, אנחנו למעשה מתכוונים ללהבין. למעשה, זה לקח לאימא טבע 540 מיליון שנים של עבודה קשה לעשות את המשימה הזו, והרבה מהמאמץ הזה הלך על פיתוח מנגנון העיבוד החזותי של המוח שלנו, לא העיניים עצמן. אז ראייה מתחילה בעיניים, אבל באמת מתרחשת במוח. אז במשך 15 שנים האחרונות, מהדוקטורט שלי במכון הטכנולוגי של קליפורניה ואז הובלת מעבדת הראייה בסטנפורד, אני עובדת עם המורים הרוחניים שלי, משתפי פעולה וסטודנטים, ללמד מחשבים לראות. תחום המחקר שלנו נקרא - ראייה ממוחשבת ולמידת מכונה. זה חלק מתחום כללי יותר של אינטלגנציה מלאכותית. אז בסופו של דבר, אנחנו רוצים ללמד את המכונות לראות כמו שאנחנו רואים: לנקוב בשמות של אובייקטים, לזהות אנשים, להסיק גיאומטרית תלת מימדית של דברים, להבין קשרים, רגשות, פעולות וכוונות. אתם ואני רוקמים ביחד סיפורים שלמים של אנשים, מקומות ודברים ברגע שאנחנו מניחים עליהם את המבט שלנו. הצעד הראשון לכיוון המטרה הזו הוא ללמד מחשב לראות חפצים, אבן הבניין של העולם החזותי. במונחים הכי פשוטים, דמיינו את תהליך הלמידה הזה כלהראות למחשבים כמה תמונות אימון של אובייקט מסוים, בואו נאמר חתולים, ועיצוב מודל שילמד מתמונות האימון האלו. כמה קשה זה כבר יכול להיות? אחרי הכל, חתול הוא פשוט אוסף של צורות וצבעים, וזה מה שאנחנו עשינו בימים הראשונים של שימוש כמודל תיאורטי באובייקטים. היינו אומרים לאלגוריתם של המחשב בשפה מתמטית שהפנים של חתול הן עגולות, גוף שמנמן, שני אוזניים מחודדות, זנב ארוך, וזה היה נראה בסדר גמור. אבל מה עם החתול הזה? (צחוק) הוא כולו מכורבל. עכשיו צריך להוסיף עוד צורה ונקודת מבט למודל האובייקט. אבל מה אם חתולים מתחבאים? מה עם החתולים המטופשים האלו? עכשיו אתם מתחילים להבין את הנקודה שלי. אפילו משהו פשוט כמו חיית מחמד ביתית יכול להציג אינסוף צורות למודל של אובייקט, וזה רק אובייקט אחד. אז לפני 8 שנים בערך, הסתכלות מאוד פשוטה ומעמיקה שינתה את המחשבה שלי. אף אחד לא אומר לילד איך לראות, במיוחד לא בשנים המוקדמות. הם לומדים דרך הנסיון בעולם האמיתי ודוגמאות. אם תתייחסו לעיניים של ילד כזוג מצלמות ביולוגיות הן לוקחות תמונה אחת בערך כל 200 אלפיות השנייה, הזמן הממוצע של תנועת עין. אז עד גיל שלוש, ילד יראה מאות מיליוני תמונות של העולם האמיתי. זה הרבה דוגמאות אימון. אז במקום להתרכז אך ורק על אלגוריתמים טובים יותר ויותר, התובנה שלי היתה לתת לאלגוריתמים את סוג מידע האימון שילד מקבל דרך ניסיון גם בכמות וגם באיכות. ברגע שאנחנו יודעים את זה, ידענו שאנחנו צריכים לאסוף מערכת מידע שיש בה הרבה יותר תמונות ממה שהיו לנו אי פעם, אולי פי כמה אלפים יותר, ויחד עם פרופסור קאי לי מאוניברסיטת פרינסטון, התחלנו את פרוייקט אימג'נט ב-2007. למזלנו, לא היינו צריכים לשים מצלמה על ראשינו ולחכות הרבה שנים. ניגשנו לאינטרנט, האוצר הגדול ביותר של תמונות שהאדם יצר אי פעם. הורדנו כמעט מיליארד תמונות והשתמשנו בפעילות של הציבור הרחב כמו הפלטפורמת המכניקל טורק של אמזון כדי לעזור לנו לתייג את התמונות האלו. בשיאו, אימג'נט היה אחד המעסיקים הגדולים של פלטפורמת טורק של אמזון: ביחד, כמעט 50,000 עובדים מ-167 מדינות מסביב לעולם עזרו לנו לנקות, לסדר ולתייג כמעט מיליארד תמונות מועמדות. זה כמה מאמץ נדרש כדי ללכוד שבריר מיכולת הדימוי שמוח של ילד מסוגל לעשות בשנות ההתפתחות המוקדמות. בדיעבד, הרעיון להשתמש בביג דאטה בשביל לאמן אלגוריתם של מחשב נראה אולי ברור עכשיו, אבל ב-2007, זה לא היה כזה ברור. היינו יחסית לבד במסע הזה למשך זמן לא קצר. כמה עמיתים ידידותיים הציעו לי לעשות משהו שימושי יותר בשביל הקביעות שלי, והיינו נאבקים כל הזמן על תקציבי מחקר. פעם אחת, התבדחתי עם הסטודנטים שלי לתואר שני שאני פשוט אפתח מחדש את החנות לניקוי יבש שלי כדי לממן את אימג'נט. אחרי הכל, ככה מימנתי את שנות הלימודים שלי. אז המשכנו. ב-2009, פרוייקט אימג'נט סיפק בסיס נתונים של 15 מיליון תמונות לרוחב 22,000 סוגי אובייקטים ודברים מאורגנים לפי שפה אנגלית יומיומית. גם בכמות וגם באיכות, זה היה קנה מידה חסר תקדים. כדוגמא, במקרה של חתולים, יש לנו יותר מ-62,000 חתולים בכל מיני מראות ותנוחות ועל פני כל המינים של חתולים ביתיים ופראיים. היינו נרגשים להרכיב את אימג'נט, ורצינו שכל עולם המחקר ירוויח ממנו, אז ברוח TED, פתחנו את כל מערכת הנתונים שלנו לקהילת המחקר ברחבי העולם בחינם. (מחיאות כפיים) עכשיו כשיש לנו את הנתונים להזין במוח הממוחשב שלנו, אנחנו מוכנים לחזור לאלגוריתמים עצמם. כפי שהתברר, עושר המידע שסופק על ידי אימג'נט היה התאמה מושלמת לסוג מסויים של אלגוריתמים ללמידת מכונה הנקראים רשת עצבים מורכבת, שפרצו דרך על ידי קוניהיקו פוקושימה, ג'ף הינטון ויאן לה-קון בשנות ה-70 וה-80. בדיוק כמו שהמוח מכיל מיליארדי נוירונים המחוברים היטב, יחידת הפעלה בסיסית ברשת הנויראלית היא הצומת מנתב המידע דמוי נוירון. הוא מקבל מידע מצמתים אחרים ושולח אותם לאחרים. יתרה מזו, מאות אלפי או אולי אפילו מיליוני הצמתים מאורגנים בשכבות היררכיות, גם כן בדומה למוח. ברשת נויראלית טיפוסית אנו משתמשים כדי לאמן את המודל זיהוי האובייקטים שלנו, יש בו 24 מיליון צמתים, 140 מיליון משתנים, ו-15 מיליארד קשרים. זה מודל ענק. המונע על ידי מידע נתונים עצום מאימג'נט ויחידות העיבוד המרכזיות והמעבדים הגרפיים לאימון מודל כזה כביר, הרשת הנויראלית המורכבת פרחה בצורה שאף אחד לא ציפה לה. זה הפך להיות הארכיטקטורה המנצחת ביצירת תוצאות חדשות ומרגשות בזיהוי אובייקטים. זה מחשב שאומר לנו שהתמונה הזו מכילה חתול ואיפה נמצא החתול. כמובן שיש יותר דברים מחתולים, אז הנה אלגוריתם של מחשב אומר לנו שהתמונה מכילה ילד ובובת דובי; כלב, אדם, ועפיפון קטן ברקע; או תמונה של דברים מאוד עסוקים כמו איש, סקייטבורד, מעקות, עמוד תאורה וכן הלאה. לפעמים, כשהמחשב לא בטוח לגמרי במה שהוא רואה, לימדנו אותו להיות חכם מספיק כדי לתת לנו תשובה בטוחה במקום להתחייב יותר מדי, בדיוק כמו שאנחנו היינו עושים, אבל בפעמים אחרות האלגוריתם הממוחשב שלנו מצויין בלהגיד לנו מה בדיוק הם האובייקטים, כמו היצרן, המודל והשנה של מכוניות. יישמנו את האלגוריתם הזה למיליוני תמונות של מפת הרחובות של גוגל במאות ערים אמריקניות, ולמדנו משהו מאוד מעניין: דבר ראשון, זה אימת את הידע הנפוץ שמחירי מכוניות נמצאים בקשר ישיר להכנסות משק הבית. אבל באופן מפתיע, מחירי המכוניות נמצאים בקשר ישיר עם רמת הפשע בערים, או תבנית הצבעות על פי מיקודים. אז רגע. זה הכל? האם המחשב השווה או אפילו עקף את היכולות האנושיות? לא כל כך מהר. עד עכשיו, אנחנו רק לימדנו את המחשב לראות אובייקטים. זה כמו שילד קטן לומד לבטא מספר שמות עצם. זה הישג מדהים, אבל זה רק הצעד הראשון. בקרוב, עוד אבן דרך התפתחותית תושג, וילדים מתחילים לתקשר במשפטים. אז במקום להגיד - זה חתול בתמונה, כבר שמעתם את הילדה הקטנה אומרת לנו שזה חתול ששוכב על מיטה. אז ללמד מחשב לראות תמונה ולייצר משפטים, הנישואים בין ביג דאטה לאלגוריתם לימוד מכונה צריכים לקחת עוד צעד. עכשיו, המחשב צריך ללמוד משתי התמונות כמו גם ממשפטים טבעיים בשפה שנוצרים על ידי בני אדם. בדיוק כמו שהמוח מייצר ראייה ושפה, אנחנו פיתחנו מודל שמקשר חלקים של דברים ויזואלים כמו מקטעים קצרים עם מילים וביטויים במשפטים. לפני ארבעה חודשים בערך, סוף סוף קשרנו את כל זה ביחד ויצרנו את אחד ממודלי הראייה הממוחשבת הראשונים שמסוגלים לייצר משפט בדומה לאדם כאשר הוא רואה תמונה בפעם הראשונה. עכשיו, אני מוכנה להראות לכם מה המחשב אומר כשהוא רואה את התמונה שהילדה הקטנה ראתה בתחילת השיחה הזו. (וידאו) מחשב: איש עומד ליד פיל. מטוס גדול עומד על מסלול טיסה. פיי פיי: כמובן, אנחנו עדיין עובדים קשה כדי לשפר את האלגוריתמים שלנו, ועדיין יש לו הרבה ללמוד. (מחיאות כפיים) והמחשב עדיין עושה טעויות. (וידאו) מחשב: חתול שוכב על מיטה בשמיכה. פיי פיי: אז כמובן, כשהוא רואה יותר מדי חתולים, הוא חושב שהכל יכול להיראות כמו חתול. (וידאו) מחשב: ילד צעיר מחזיק אלת בייסבול. (צחוק) פיי פיי: או אם הוא לא ראה מברשת שיניים, הוא מבלבל את זה עם אלת בייסבול. (וידאו) מחשב: איש רוכב על סוס במורד הרחוב ליד בניין. (צחוק) פיי פיי: לא לימדנו את המחשבים מבוא לאומנות. (וידאו) מחשב: זברה עומדת בשדה עשב. פיי פיי: והוא לא למד להעריך את היופי המדהים של הטבע כמוני וכמוכם. אז עדיין יש לו דרך ארוכה. להגיע מגיל אפס לשלוש היה קשה. האתגר האמיתי הוא להגיע משלוש לשלוש עשרה ומעבר לזה. תרשו לי להזכיר לכם עם התמונה של הילד והעוגה שוב. עד עכשיו, לימדנו את המחשב לראות אובייקטים או אפילו לספר לנו סיפור פשוט כשהוא רואה תמונה. (וידאו) מחשב: אדם יושב ליד שולחן עם עוגה. פיי פיי: אבל יש עוד כל כך הרבה בתמונה הזו מאשר רק אדם ועוגה. מה שהמחשב לא רואה זה שזו עוגה איטלקית מיוחדת שמוגשת רק בחג הפסחא. הילד לובש את החולצה האהובה עליו שניתנה לו על ידי אביו אחרי טיול בסידני, ואתם ואני יכוים להגיד כמה מאושר הוא ומה בדיוק הוא חושב ברגע הזה. זה בני ליאו. במסע שלי לאינטלגנציה חזותית, אני כל הזמן חושבת על ליאו ועל העולם העתידי בו הוא יחיה. כשמכונות יכולות לראות, לרופאים ואחיות יהיה עוד זוג עיניים שלא מתעייפות כדי לעזור להם לאבחן ולדאוג למטופלים. מכוניות ינועו בצורה חכמה יותר ובטוחה יותר בדרכים. רובוטים, לא רק בני אדם, יעזרו לנו לעמוד בגבורה באזורי אסון ולהציל את הלכודים והפצועים. אנחנו נגלה מינים חדשים, חומרים טובים יותר, ונחקור גבולות חדשים עם עזרה של המכונות. לאט לאט, אנחנו נותנים יכולת ראייה למכונות. קודם כל, אנחנו מלמדים אותם לראות. לאחר מכן, הם יעזרו לנו לראות טוב יותר. בפעם הראשונה, העיניים האנושיות לא יהיו העיניים היחידות שמהרהרות וחוקרות את העולם. אנחנו לא רק נשתמש במכונות בשביל האינטליגנציה שלהם, אנחנו גם נשתף איתן פעולה בדרכים שאנחנו אפילו לא יכולים לדמיין. זה המסע שלי: לתת למחשבים תבונה חזותית וליצור עתיד טוב יותר בשביל ליאו ובשביל העולם. תודה רבה. (מחיאות כפיים)