Big Data


עברו כמעט שלושה שבועות מהכנס שארגן המרכז להנדסת מחשבים בטכניון על
Machine Learning and Big Data, ועדיין לא יצאה לי מזה רשימה.

זה הקישור לכנס: 3rd Annual International TCE Conference

קיוויתי לכמה דברים  כאשר החלטתי ללכת לכנס, למרות שהוא כבר ממש לא בתחום עיסוקי: לפגוש מכרים מהימים שבהם זה כן היה פחות או יותר מה שעניין, ואף פרנס אותי, לנסות ולקבל השראה לפטנטים שאותם אני מפעם לפעם כותב ואף מוכר, ולמצוא אולי חומר מעניין לכתוב עליו, כאן.

כי יש השקה מעניינת בין העולם הזה של big data והעולם אותו אני מנסה לגלות עכשיו, זה של מדעי הרוח. big data מעצב את עולם המושגים שלנו, והומחשה קיבלתי כמה שבועות מאוחר יותר, בכנס הלקסיקלי העשירי של מרכז מינרבה באוניברסיטת תל אביב. ההגדרות שניתנו שם למושגים כמו "נורמלי" או "זיכרון" שונות בתכלית מההגדרות שהיו ניתנות להם לפני עידן ה big data.

מכרים אכן פגשתי, רעיונות לפטנטים לא עלו לי בינתיים כתוצאה  ישירה מהכנס. אבל מי יודע, לך תדע איפה זה יצוץ. אין מדע להמצאתיות. אתה יכול רק לדאוג לאספקה סדירה של גירויים, ולקוות לטוב.

 ורשומה? לקח לי זמן עד שמצאתי מה הייתי רוצה לכתוב על הכנס. חלקית בגלל גודש האירועים והכנסים בהם נכחתי בשבועות האחרונים. כמעט על כולם יש לי מה להגיד, אבל זה ייקח זמן. אז החלטתי לחזור לכנס הזה, והכתיבה תאפשר לי קצת לנסות לעבד מה ששמעתי שם.

נושא היום הראשון של הכנס היה big data. אבל מה שנחשב big data  משתנה בקצב מאד מהיר עם הגידול המהיר בכמויות המידע העוברות ברשת והמאוחסנות בשרתים. השפה כרגיל ממחישה את השינוי היטב. כמעט כל כמה חודשים אני לומד על שמות של מספרים עוד יותר גדולים, בדרך כלל לתיאור כמויות של נתונים המאוחסנים אצל חברות כמו גוגל, פייסבוק וכמובן ידידנו הקשוב אלינו תמיד – ה NSA.

מגיגהבייט וטרהבייט המוכרים, עברנו ביעף דרך פטהבייט, אקסביייט, זיטהבייט ועד יוטאבייט. וזה לא סוף הדרך. כל אחד מהשמות האלה מציין מספר הגדול פי אלף מקודמו, חזקות עוקבות של אלף.

הנה כמה שמות, ומשמעותם (לקוח מויקיפדיה)yottabyte

ומצאתי גם את השמות האלה, שבשלב זה עוד לא מדובר על בניית מתקני אחסון נתונים בגדלים כאלה, אבל השמות כבר כאן (אני לא בטוח אם הם "רשמיים").

(Xenottabyte (1 000 000 000 000 000 000 000 000 000 Bytes

(Shilentnobyte (1 000 000 000 000 000 000 000 000 000 000 Bytes

(Domegemegrottebyte (1 000 000 000 000 000 000 000 000 000 000 000 Bytes

אבל כבר מדברים על נפחי אכסון של יודה-בתים, כמו שמראה האינפוגרפיקה הזו:blog-infographic-yottabyte-size

אז יש כמויות בלתי נתפסות של מידע דיגיטלי שצריך להעביר ולאכסן, ואין ספק שיצרני הדיסקים הקשיחים עושים עסקים טובים. מדהים בפני עצמו שאפשר בכלל למצוא דברים בערמות האלה,וזה שהחיפוש הוא כל כך מהיר אומר בעצם שני דברים:

  • שהמידע מאוכסן כך שלפחות בחלקו אפשר למצוא דברים מהר. בגוגל קוראים לזה (עדיין) "The brittney spears data set" למרות שכיום היא כבר ממש לא מייצגת את הדברים שאנשים מחפשים יותר. הסט הזה משתנה כל הזמן
  • שלא כל המידע באמת נגיש. כי חברה כמו גוגל יודעת שהיא חייבת לספק תשובות תוך שברירי שניה, ולכן התשובות לשאילתות החיפוש שפוגעות במידע שגוגל חושבת שהוא פחות סביר שיהיה יעד לחיפוש ולכן הוא משוכפל פחות פעמים ברחבי העולם, יתכן ויהיו לא בדף הראשון של תוצאות החיפוש, מקום בו אנחנו לא מסתכלים כמעט אף פעם.

חיפוש זה דבר נפלא. באמת. אבל הוא בעצם רק נקודת ההתחלה. כי השלב הבא, שכבר בעצם כמעט פה עכשיו, הוא לקבל לא הפניות למקומות בהם אפשר למצוא את התשובות לשאלות שלנו, אלא ישר את התשובות לשאלות שלנו.

אבל גם זה לא מאד מעניין. לפחות לא מבחינה פילוסופית. כי תשובות לשאלות שאנו יודעים לשאול, הן פחות או יותר מקבילות ל"מובן מאליו החברתי". הן מהוות שיחה בתוך עולם הקטגוריות שלנו כפי שהוא כבר קיים כעת. (עוד על זה ברשומה על תאוריה של אוונגארד). הן דרך להפוך את החלקים של הזיכרון שלנו המאוחסנים מחוץ למוח שלנו, שם בענן, לשווי ערך לחלקי הזיכרון שלנו המאוחסנים בתוך המוח שלנו. להפוך מידע לידע.

אתגר לא קטן, והישג טכנולוגי אדיר. אבל מה שנראה לי מעניין, זה לדעת לשאול את השאלות שאינו מובנות מאליהן.  להיות מסוגל לדעת מה שאני לא יודע, וקצת מזה קיים כבר בתחום בו עסק היום השני לכנס, זה על machine learning.

הדגימה את העניין הרצאה של מישהו מהרשות לפיתוח אמצעי לחימה (המצגת כאן). הם מנסים לפתח מערכת המנסה לזהות באופן אוטונומי איומים על ספינה מתוך שפע המידע המגיה מהחיישנים שעל הספינה ועל "פלטפורמות אחרות". הם משתמשים בשיטה הנקראת SVM, ראשי תיבות של מכונת וקטורים תומכים, באנגלית  Support Vector Machine. זו שיטה לבניית "מסווגים" אוטומטיים. אחרי שנותנים למערכת כמה דוגמאות למה נמצא בקבוצה אחת ומה נמצא בקבוצה שנייה (שלב הלימוד או ההנחיה), נותנים לה למצוא לבד מה הקריטריונים לסווג שאר הנתונים בין שתי הקבוצות.

מה שמעניין בשיטה הזו, שהמערכת מסווגת מצוין, אבל לא תמיד על סמך הקריטריונים שבן אדם היה מסווג לפיהם. הרבה מאד פעמים אלו קריטריונים שאי אפשר בכלל להסביר אותם בשפה מדוברת אלא במונחים מתמטיים בלבד. כלומר, המערכת לומדת לשאול שאלות לגבי הנתונים ("העולם" שלה) שאנחנו לא יודעים לשאול, או יותר נכון, שאנחנו לא יודעים שהיינו צריכים לשאול.

מפתחי המערכת ברפא"ל כן ניסו להבין את הקריטריונים שהמסווג שלהם מצא, לדבריהם כדי לראות האם המערכת שהם פיתחו "עושה שכל" ולעזור למצוא שגיאות התכנון המערכת. ואז, בשלב השאלות מהקהל, קם אחד ושאל שאלה מעניינת: "למה בכלל אתם חושבים שאתם צריכים להבין מה שמהמערכת עושה?"

שאלה שאני בטוח שעלתה במוחו של כמעט כל מי שיש לו ניסיון כלשהו במסווגים. כי הניסיון מראה שמוחנו פשוט מוגבל, בהרבה מאד מקרים, מכדי להבין את מורכבות המערכת שהנתונים מייצגים, ולכן גם לא מסוגל להבין מה חשוב ומה לא חשוב לשאול על הנתונים כדי לסווג אותם לקבוצות. קבוצות שהמרחק ביניהן מקסימלי. כלומר, שההפרדה ביניהן היא הטובה ביותר שאפשר להשיג, שהן מובחנות בבירור זו מזו.

והנה מקום בו כבר הפנמנו את נחיתותנו ממחשבים. תשובת המרצה הייתה שהוא לא בטוח שסט נתוני האימון שלו אכן מייצג את עולם הבעיה. יתכן, אבל ניסיון להבין את מהות הווקטורים התומכים היא לא הפתרון.

לאן בעצם אנחנו מתקרבים? לא להגדרה הקלסית של בינה מלאכותית, אבל היכולת לעשות סינתזה (או סתם להיזכר) היא מה שבלא מעט מקרים נראה לנו כאינטליגנציה. ב"להיזכר" מחשבים כבר עברו אותנו מזמן. ביכולת סינתזה, הם כבר מאד מתקרבים אלינו, ואף עברו אותנו בלא מעט תחומים. מן הסתם בזכות מאגר הענק של "דוגמאות" לאימון המערכות האלה ש"יודבתים" (Yoddabytes) של מידע מאוכסן ונגיש מזמנים.

והנה הרצאה אחת שמצאתי מעניינת במיוחד:

Sparse Modeling of Graph structured Data and Images

מן הסתם גם בזכות המרצה, מיקי אלעד מהטכניון.

מודעות פרסומת

2 מחשבות על “Big Data

  1. גד,
    את רוב הדברים שכתבת לא ממש הבנתי, אבל המשכתי לקרוא, כאילו ידעתי שאתה עומד להגיע לעניין של מוח-מחשב. למה לנסות להבין מה קורה שם? -זו לדעתי השאלה שאף פעם לא נדע את התשובה שלה, כי המוח לא יכול להבין את ה "כוח" (אינני יודעת מה המילה המתאימה למה שרוצה להביע. לכן אשתמש במושג "הכוח" במובן של היכולת להוציא אל הפועל) המאפשר לו לפעול. המאפשר לו ליישם פעולות מוטוריות, חשיבה(על כל סוגיה), תחושה ורגש, יצירה וכדומה. או במילים אחרות: המוח לא יכול לדעת את עצמו. הדעה הזו התחזקה בי עוד יותר לאחר שקראתי השנה את הספר: תורת הקוונטים – מציאות ומסתורין של יואב בן דב. גם שם לא הבנתי הכל אבל אני שייכת לאלה המאמינים שלא נוכל לדעת את "הדבר עצמו", רק את היישומים שלו. הדבר עצמו הוא אלוהים(או איך שתעדיף לקרוא לו). הוויה בלי התחלה, לא רק בלי סוף. דבר שמתחיל ונגמר, כמו המוח שלנו לא יכול, גם לא לתפוס, גם לא להבין הוויה כזו.

כתיבת תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s