פרק ב: בני

הפרק הקודם כאן

ביחידה ברכה פגשה את בני, שכינויו ביחידה היה "השבדי", כנראה בגלל שהיה כל כך קטן, צנום וכהה עור. בני, שנולד באזרבייג'ן, בקהילה של יהודים הרריים גויס ליחידה בגלל ששלט בלהג הג'והורי,  בעצם ניב פרסי. דוברי פרסית היו יקרי המציאות וכמעט כולם הגיעו אל היחידה הזו.

בני בעצם רצה "להיות במחשבים" בצבא, אך למרות שהיה פריק אמיתי של מחשבים, וידע בפועל יותר מבוגר ממוצע של הטכניון, הצבא לא היה מעוניין בשרותיו. בבית הספר הדתי-חרדי  בו הוא למד לא הייתה מגמת מחשבים, וגם לא מחשבים, ההכשרה שלו במחשבים הייתה כולה לא פורמלית, וכישוריו לא התאימו לשום משבצת בתהליך המיון לצה"ל. הוא אפילו לא סיים בית ספר תיכון, ולכן אם לא היו צריכים את ידיעת השפה שלו, הוא היה מן הסתם מגיע להיות אפסנאי בבסיס נידח כלשהו.

אבל אפילו הצבא לא הצליח למנוע מבני לעשות מה שאהב, ועם הזמן הוא עבר באופן לא פורמלי ליחידת המחשב. שם היה מאלה שניסו לעשות בעזרת מחשבים את מה שברכה עשתה באותו מצב תודעתי שמוחה פיתח – לזקק משמעות מתוך כמויות גדולות של חומר גולמי, שרובו אגב אפילו לא היה סודי. משהו שהיום היו קוראים לו big data, אבל באותם הימים עוד לא היה לזה שם.

כיום, חלק קטן מה שברכה יודעת לעשות אפשר כבר לעשות בשיטות של למידה ממוחשבת, בינה מלאכותית וכרייה של נתונים ממגרי מידע גדולים. מה שנקרא Big Data. אבל ברכה ידעה להפיק תובנות גם מכמויות מצומצמות יותר של חומר, בעזרת אינטואיציה שנדמתה לפעמים לכישוף, אבל ששוב ושוב הוכיחה את עצמה.

עוד לפני שברכה שמה לב לבני עצמו,.היא שמה לב לספרים. אלו שבני החזיק כמעט תמיד מתחת לבית השחי. אחרי כשבוע של היסוסים היא אזרה אומץ, ניגשה אליו, ושאלה אם תוכל להשאיל ממנו את הספר שראתה אצלו שבוע קודם, על השולחן בחדר האוכל. אלא שאז פתאום אמרה לעצמה שהיד שמחזיקה בספרים נורא יפה, והמשיכה והסתכלה במה שמחובר ליד, וגם מה שראתה שם, מצא חן בעיניה, וזה היה עוד לפני שהם התחלו לדבר. כשהתחלו לדבר, כבר לא יכלו להפסיק.

בניגוד למשפחתה הגדולה וההדוקה עד חונקת של ברכה, בני לא הכיר את הוריו. אלו נהרגו במפולת בוץ כשהיה בן שלוש, והוא לא באמת זכר אותם. עם הזמן  סיפר לה שהוא נשלח לבדו ארצה בגיל עשר, אחרי שלסבתו כבר לא היה כוח לטפל בו, פה בארץ הוסלל על ידי הסוכנות ללימודים בישיבה מהזרם הדתי לאומי באשקלון. שם, כבר בגיל שתים עשרה בערך הוא החל ללמד את עצמו תיכנות, ואט אט נסחף באופן בינארי מאמונה באלוהים לאמונה במחשבים.

בגיל שש עשרה, סיפר  בגאווה, כבר השתכר מספיק מכתיבת תכנה והיה יכול להרשות לעצמו לנטוש את הישיבה ולעבור לגור בדירה בגבעת שמואל אותה חלק עם שני דתיים לשעבר (דתל"שים). בדירה ההיא הם  כבר לא קיימו אורח חיים דתי, אבל הם המשיכו ללמוד דף גמרא יומי, כמו בישיבה, בחברותא.
לברכה, כל זה היה חדש ומוזר. היא הייתה כל כך רגילה ללמוד לבדה, מנוכרת מכל בני גילה שהלימוד בחברותא, שבני כל כך התלהב ממנו, נראה לה המצאה נפלאה.

הם ניסו את זה יחד, את עניין הלימוד בחברותא, וישבו וקראו יחד ספרי עיון שפורסמו בפרס, בעירק, ובמדינות מוסלמיות אחרות. לברכה, שתמיד רצתה לראות איך נראים הדברים "מהצד האחר", זה היה מרתק. בני מצדו, היה מהופנט מיכולת החשיבה והניתוח של ברכה, והיה יושב לצידה בסבלנות, בוחן אותה בהתפעלות בכל פעם שנעלמה לו אל אותו המקום שלה. הוא ידע שכשתחזור, יהיה לו מעניין ומאלף לשמוע מה שהיא חצבה שם, מים המילים הזה.

אבל לא רק לימוד בחברותא היה שם. כל מי שראה אותם הולכים זה לצד זה בשבילי הבסיס, ברכה גבוהה מבני בכמעט ראש, ומדברים בהתלהבות על ספרות, והיסטוריה, ואמנות, ופילוסופיה, ועל הספרים שקראו יחד ולחוד, לא יכול היה שלא לחשוב: "איזה זוג מוזר/יפה"

הם החלו להיפגש בתדירות גדלה והולכת, וגם לגעת אחד בשני, תחילה כבדרך אגב, בהיסוס גדול. יד על הכתף, ואט אט, עם כוונה. לשניהם זו הייתה התנסות ראשונה בקשר כלשהו עם בן המין האחר. עד שפעם אחת יצאו יחד לחופשה במהלכה בני בא לבקר אותה במושב, והקשר הפך לקשר מסוג אחר.

אחרי עוד כמה ביקורים, משפחתה כבר הייתה משפחתו, הוריה תחליף ההורים שלא היו לו. העובדה שבני למד בישיבה, ועדיין לומד גמרא מדי יום, קנתה את ליבו של אביה שתמיד אמר לעצמו שאלמלא היה עולה ארצה בשנות החמישים, היה מן הסתם לומד גם הוא תורה. עדינותו של בני, וההערצה הגלויה שלו לברכה, קנו את אמא של ברכה, עד כדי כך, שהתאפקה ולא אמרה כלום  גם כשגילתה בוקר אחד שבני וברכה שכחו להפריד בין המיטות בחדרה של ברכה, לפני שחזרו יחד לבסיס.

ברכה, שהייתה מבוגרת מבני בקצת יותר משנה ושירותה הצבאי היה קצר משלו, חתמה לשירות קבע עד למועד השחרור שלו. לרווחת מפקדיה, שלא היה ברור להם איך הם הולכים להסתדר בלעדיה. שורה של תחזיות שהפיקה למה שהולך להתרחש בלבנון, באירן, בפקיסטן ובסוריה התבררו כמדויקות כל כך, עד שראש אמ"ן סירב להאמין שהן הופקו אך ורק מקריאה של חומר גלוי, על ידי אדם אחד, במשך פחות משנה. בסופו של דבר, מישהו שינה את הסיפור, וסיפר לו שמערכת ניתוח המידע הממוחשבת שלהם היא בעצם הכלי שבעזרתו הפיקה ברכה את התובנות המדויקות האלה, מה שלחלוטין לא היה נכון, אבל היה סיפור שהיה יכול להתקבל על ידי מי שלא הכיר את ברכה ואת היכולות שלה. פשוט לא היה לאף אחד מושג איך להסביר את זה.

המשך יבוא

Big Data

עברו כמעט שלושה שבועות מהכנס שארגן המרכז להנדסת מחשבים בטכניון על
Machine Learning and Big Data, ועדיין לא יצאה לי מזה רשימה.

זה הקישור לכנס: 3rd Annual International TCE Conference

קיוויתי לכמה דברים  כאשר החלטתי ללכת לכנס, למרות שהוא כבר ממש לא בתחום עיסוקי: לפגוש מכרים מהימים שבהם זה כן היה פחות או יותר מה שעניין, ואף פרנס אותי, לנסות ולקבל השראה לפטנטים שאותם אני מפעם לפעם כותב ואף מוכר, ולמצוא אולי חומר מעניין לכתוב עליו, כאן.

כי יש השקה מעניינת בין העולם הזה של big data והעולם אותו אני מנסה לגלות עכשיו, זה של מדעי הרוח. big data מעצב את עולם המושגים שלנו, והומחשה קיבלתי כמה שבועות מאוחר יותר, בכנס הלקסיקלי העשירי של מרכז מינרבה באוניברסיטת תל אביב. ההגדרות שניתנו שם למושגים כמו "נורמלי" או "זיכרון" שונות בתכלית מההגדרות שהיו ניתנות להם לפני עידן ה big data.

מכרים אכן פגשתי, רעיונות לפטנטים לא עלו לי בינתיים כתוצאה  ישירה מהכנס. אבל מי יודע, לך תדע איפה זה יצוץ. אין מדע להמצאתיות. אתה יכול רק לדאוג לאספקה סדירה של גירויים, ולקוות לטוב.

 ורשומה? לקח לי זמן עד שמצאתי מה הייתי רוצה לכתוב על הכנס. חלקית בגלל גודש האירועים והכנסים בהם נכחתי בשבועות האחרונים. כמעט על כולם יש לי מה להגיד, אבל זה ייקח זמן. אז החלטתי לחזור לכנס הזה, והכתיבה תאפשר לי קצת לנסות לעבד מה ששמעתי שם.

נושא היום הראשון של הכנס היה big data. אבל מה שנחשב big data  משתנה בקצב מאד מהיר עם הגידול המהיר בכמויות המידע העוברות ברשת והמאוחסנות בשרתים. השפה כרגיל ממחישה את השינוי היטב. כמעט כל כמה חודשים אני לומד על שמות של מספרים עוד יותר גדולים, בדרך כלל לתיאור כמויות של נתונים המאוחסנים אצל חברות כמו גוגל, פייסבוק וכמובן ידידנו הקשוב אלינו תמיד – ה NSA.

מגיגהבייט וטרהבייט המוכרים, עברנו ביעף דרך פטהבייט, אקסביייט, זיטהבייט ועד יוטאבייט. וזה לא סוף הדרך. כל אחד מהשמות האלה מציין מספר הגדול פי אלף מקודמו, חזקות עוקבות של אלף.

הנה כמה שמות, ומשמעותם (לקוח מויקיפדיה)yottabyte

ומצאתי גם את השמות האלה, שבשלב זה עוד לא מדובר על בניית מתקני אחסון נתונים בגדלים כאלה, אבל השמות כבר כאן (אני לא בטוח אם הם "רשמיים").

(Xenottabyte (1 000 000 000 000 000 000 000 000 000 Bytes

(Shilentnobyte (1 000 000 000 000 000 000 000 000 000 000 Bytes

(Domegemegrottebyte (1 000 000 000 000 000 000 000 000 000 000 000 Bytes

אבל כבר מדברים על נפחי אכסון של יודה-בתים, כמו שמראה האינפוגרפיקה הזו:blog-infographic-yottabyte-size

אז יש כמויות בלתי נתפסות של מידע דיגיטלי שצריך להעביר ולאכסן, ואין ספק שיצרני הדיסקים הקשיחים עושים עסקים טובים. מדהים בפני עצמו שאפשר בכלל למצוא דברים בערמות האלה,וזה שהחיפוש הוא כל כך מהיר אומר בעצם שני דברים:

  • שהמידע מאוכסן כך שלפחות בחלקו אפשר למצוא דברים מהר. בגוגל קוראים לזה (עדיין) "The brittney spears data set" למרות שכיום היא כבר ממש לא מייצגת את הדברים שאנשים מחפשים יותר. הסט הזה משתנה כל הזמן
  • שלא כל המידע באמת נגיש. כי חברה כמו גוגל יודעת שהיא חייבת לספק תשובות תוך שברירי שניה, ולכן התשובות לשאילתות החיפוש שפוגעות במידע שגוגל חושבת שהוא פחות סביר שיהיה יעד לחיפוש ולכן הוא משוכפל פחות פעמים ברחבי העולם, יתכן ויהיו לא בדף הראשון של תוצאות החיפוש, מקום בו אנחנו לא מסתכלים כמעט אף פעם.

חיפוש זה דבר נפלא. באמת. אבל הוא בעצם רק נקודת ההתחלה. כי השלב הבא, שכבר בעצם כמעט פה עכשיו, הוא לקבל לא הפניות למקומות בהם אפשר למצוא את התשובות לשאלות שלנו, אלא ישר את התשובות לשאלות שלנו.

אבל גם זה לא מאד מעניין. לפחות לא מבחינה פילוסופית. כי תשובות לשאלות שאנו יודעים לשאול, הן פחות או יותר מקבילות ל"מובן מאליו החברתי". הן מהוות שיחה בתוך עולם הקטגוריות שלנו כפי שהוא כבר קיים כעת. (עוד על זה ברשומה על תאוריה של אוונגארד). הן דרך להפוך את החלקים של הזיכרון שלנו המאוחסנים מחוץ למוח שלנו, שם בענן, לשווי ערך לחלקי הזיכרון שלנו המאוחסנים בתוך המוח שלנו. להפוך מידע לידע.

אתגר לא קטן, והישג טכנולוגי אדיר. אבל מה שנראה לי מעניין, זה לדעת לשאול את השאלות שאינו מובנות מאליהן.  להיות מסוגל לדעת מה שאני לא יודע, וקצת מזה קיים כבר בתחום בו עסק היום השני לכנס, זה על machine learning.

הדגימה את העניין הרצאה של מישהו מהרשות לפיתוח אמצעי לחימה (המצגת כאן). הם מנסים לפתח מערכת המנסה לזהות באופן אוטונומי איומים על ספינה מתוך שפע המידע המגיה מהחיישנים שעל הספינה ועל "פלטפורמות אחרות". הם משתמשים בשיטה הנקראת SVM, ראשי תיבות של מכונת וקטורים תומכים, באנגלית  Support Vector Machine. זו שיטה לבניית "מסווגים" אוטומטיים. אחרי שנותנים למערכת כמה דוגמאות למה נמצא בקבוצה אחת ומה נמצא בקבוצה שנייה (שלב הלימוד או ההנחיה), נותנים לה למצוא לבד מה הקריטריונים לסווג שאר הנתונים בין שתי הקבוצות.

מה שמעניין בשיטה הזו, שהמערכת מסווגת מצוין, אבל לא תמיד על סמך הקריטריונים שבן אדם היה מסווג לפיהם. הרבה מאד פעמים אלו קריטריונים שאי אפשר בכלל להסביר אותם בשפה מדוברת אלא במונחים מתמטיים בלבד. כלומר, המערכת לומדת לשאול שאלות לגבי הנתונים ("העולם" שלה) שאנחנו לא יודעים לשאול, או יותר נכון, שאנחנו לא יודעים שהיינו צריכים לשאול.

מפתחי המערכת ברפא"ל כן ניסו להבין את הקריטריונים שהמסווג שלהם מצא, לדבריהם כדי לראות האם המערכת שהם פיתחו "עושה שכל" ולעזור למצוא שגיאות התכנון המערכת. ואז, בשלב השאלות מהקהל, קם אחד ושאל שאלה מעניינת: "למה בכלל אתם חושבים שאתם צריכים להבין מה שמהמערכת עושה?"

שאלה שאני בטוח שעלתה במוחו של כמעט כל מי שיש לו ניסיון כלשהו במסווגים. כי הניסיון מראה שמוחנו פשוט מוגבל, בהרבה מאד מקרים, מכדי להבין את מורכבות המערכת שהנתונים מייצגים, ולכן גם לא מסוגל להבין מה חשוב ומה לא חשוב לשאול על הנתונים כדי לסווג אותם לקבוצות. קבוצות שהמרחק ביניהן מקסימלי. כלומר, שההפרדה ביניהן היא הטובה ביותר שאפשר להשיג, שהן מובחנות בבירור זו מזו.

והנה מקום בו כבר הפנמנו את נחיתותנו ממחשבים. תשובת המרצה הייתה שהוא לא בטוח שסט נתוני האימון שלו אכן מייצג את עולם הבעיה. יתכן, אבל ניסיון להבין את מהות הווקטורים התומכים היא לא הפתרון.

לאן בעצם אנחנו מתקרבים? לא להגדרה הקלסית של בינה מלאכותית, אבל היכולת לעשות סינתזה (או סתם להיזכר) היא מה שבלא מעט מקרים נראה לנו כאינטליגנציה. ב"להיזכר" מחשבים כבר עברו אותנו מזמן. ביכולת סינתזה, הם כבר מאד מתקרבים אלינו, ואף עברו אותנו בלא מעט תחומים. מן הסתם בזכות מאגר הענק של "דוגמאות" לאימון המערכות האלה ש"יודבתים" (Yoddabytes) של מידע מאוכסן ונגיש מזמנים.

והנה הרצאה אחת שמצאתי מעניינת במיוחד:

Sparse Modeling of Graph structured Data and Images

מן הסתם גם בזכות המרצה, מיקי אלעד מהטכניון.