Big Data - Tim smith

מידע גדול הוא מושג חמקמק. הוא מייצג כמות של מידע דיגיטלי, שלא נוח לאחסן, להעביר, או לנתח. למידע גדול יש נפח כל כך גדול שהוא מכריע את הטכנולוגיה של היום ומאתגר אותנו ליצור את הדור הבא של כלי ושיטות איחסון מידע. אז, מידע גדול אינו דבר חדש. למעשה, הפיסיקאים ב-CERN התמודדו עם האתגרים של המידע הגדול המתרחב ללא הפסקה שלהם במשך עשורים. לפני חמישים שנה, המידע של CERN היה יכול להיות מאוחסן במחשב בודד. אוקיי, אז זה לא היה מחשב רגיל, זה היה מחשב מרכזי שמילא בניין שלם. כדי לנתח את המידע, פיזיקאים מסביב לעולם היו נוסעים לCERN כדי להתחבר למכונה העצומה. בשנות ה 70, המידע הגדול הממשיך לגדול שלנו היה מחולק לסטים שונים של מחשבים, שצצו כמו פיטריות ב CERN. כל סט היה מחובר ברשת יעודית שפותחה עבורו אבל פיסיקאים שיתפו פעולה בלי מחשבה על הגבולות בין הסטים, ולכן היו צריכים לגשת למידע בכולם. אז, חיברנו את הרשתות העצמאיות ברשת CERNET שלנו. בשנות ה80, איים של רשתות דומות שדיברו בניבים שונים צצו בכל אירופה וארצות הברית, והפכו גישה מרחוק לאפשרית אבל מייגעת. כדי להקל על הפיסיקאים מסביב לעולם לגשת למידע הגדל ללא הפסקה שמאוכסן ב CERN בלי נסיעות, הרשתות היו צריכות לדבר באותה שפה. אימצנו את הסטנדרט האינטרנטי החדש מארצות הברית, ואחרינו שאר אירופה, והקמנו את החיבור המרכזי ב CERN בין אירופה לארצות הברית ב 1989, והאינטרנט הגלובלי באמת המריא! פידיקאים יכלו לגשת בקלות לטרה בייטים של המידע מרחוק מסביב לעולם, ליצור תוצאות, ולכתוב עבודות במכוני הבית שלהם. אז, הם רצו לחלוק את הממצאים שלהם עם העמיתים שלהם. כדי לפשט את שיתוף המידע הזה , יצרנו את האינטרנט בתחילת שנות ה90. פיסיקאים לא היו צריכים יותר לדעת איפה המידע מאוחסן כדי למצוא אותו ולגשת אליו ברשת, רעיון שתפש ברחבי העולם ושינה את הדרך בה אנשים מתקשרים בחיינו היום יומיים. במהלך תחילת שנות ה 2000, הגידול המתמשך של המידע הגדול שלנו עבר את יכולתינו לעבד אותו ב CERN, למרות שהיו לנו בניינים שלמים מלאים במחשבים. היינו צריכים להתחיל לבזר את הפטה-בייטים של המידע לשותפים שלנו כדי להפעיל מחשוב ואחסון מקומיים במאות מכונים שונים. כדי לתזמר את המשאבים המחוברים האלה עם הטכנולוגיות המגוונות, פיתחנו גריד מחשוב, שאפשר לנו לחלוק באופן שקוף משאבי מחשוב מסביב לגלובוס. זה מסתמך על יחסי אמון וחליפין הדדיים. אבל מודל הגריד הזה לא היה יכול להיות מועבר מחוץ לקהילה שלנו כל כך בקלות, שם לא לכולם יש את המשאבים לחלוק וחברות גם לא היו צפויות שתהיה להן אותה רמה של אמון. במקום, חלופה, גישה יותר עסקית לגישה למשאבים לפי צורך פרחה לאחרונה, שנקראת מחשוב ענן, שקהילות אחרות חוקרות עכשיו כדי לנתח את המידע הגדול שלהן. אולי זה נראה פרדוקסלי למקום כמו CERN, מעבדה שממוקדת בלימוד אבני הבניין הקטנות להפליא של החומר, להיות המקור של משהו גדול כמו מידע גדול. אבל הדרך בה אנחנו לומדים חלקיקים בסיסיים, כמו גם את הכוחות איתם הם משפיעים אחד על השני, דורשת ליצור אותם במהירות, על ידי ריסוק פרוטונים במאיצים שלנו ולכידת הנתיב שלהם כשהם חולפים ביעף כמעט במהירות האור. כדי לראות את הנתיבים האלה, הגלאי שלנו, עם 150 מיליון חיישנים, פועל כמו מצלמה תלת מימדית ממש מסיבית, שמצלמת כל ארוע התנגשות - שזה עד 14 מיליון פעמים בשניה. זה יוצר הרבה מידע. אבל אם מידע גדול היה בסביבה כל כך הרבה זמן, למה אנחנו פתאום שבים ושומעים עליו כל כך הרבה כעת? ובכן, כמו שהמטאפורה הישנה מסבירה, השלם גדול מסכום חלקיו, וזה כבר לא רק המדע שמנצל את זה. העובדה שאנחנו יכולים להסיק יותר ידע על ידי צירוף מידע מקושר ולהאיר קישורים יכולה לידע ולהעשיר פנים רבות של החיים היום יומיים, בין אם בזמן אמת, כמו מצבי תנועה או פיננסים, באבולוציות לטווח קצר, כמו ברפואה או מטאורולוגיה, או במצבי ניבוי, כמו בעסקים, פשע, או התפשטות מגפות. כמעט כל תחום פונה לאיסוף מידע גדול, עם רשתות סנסורים ניידים שמקיפות את הגלובוס, מצלמות על הקרקע ובאויר, ארכיונים שאוגרים מידע שפורסם ברשת, ולוגרים שלוכדים את הפעילויות של אזרחי הרשת מסביב לעולם. האתגר הוא להמציא כלים חדשים ושיטות לכרות את המאגרים הגדולים האלה, כדי לעזור בקבלת החלטות, לשפר אבחנות רפואיות, ואחרת לענות על הצרכים והמאווים של חברת המחר בדרכים שאי אפשר לדמיין היום.