להציל את האות המתה

האינטרנט התחיל, בעצם, כפלטפורמה משודרגת לטקסט. תחילה, של מאמרים מדעיים, בעיקר של פיזיקאים. אפילו ראשי התיבות של הפרוטוקול שעליו מבוססת רשת האינטרנט – HTTP, הם Hypertext Transfer Protocol. כך, האפשרות להפוך כל קטע טקסט לקישור אל מסמך אחר, הפך את האינטרנט לספריה הגדולה וגם היעילה ביותר בעולם.

עם הופעת מנועי חיפוש יעילים, נהיה אפילו יותר קל למצוא ספר ברשת מאשר לגשת לחדר הסמוך ולחפש אותו על המדפים. ולבטח שיותר קל למצוא קטע ספציפי בטקסט הרשת מאשר בספר, גם אם הספר כבר מונח פיזית על ברכיך. אבל בשביל שזה יקרה, הספר היה צריך להיות בפורמט של טקסט שמחשב יכול לקרוא, לא כתמונה (שאדם יכול לקרוא).

סוג המידע "טקסט" הפך אט אט לאזרח מדרגה שנייה ברשת, שני למידע חזותי: תמונות וסרטי ווידאו. אין כנראה הרבה כסף להרוויח מעיבוד של טקסט. לא כמו שאפשר למשל לעשות מהאפשרות להקפיץ לאנשים לשדה הראיה פרסומת או "מידע שיווקי", מה שדוחף טכנולוגיה כגון זו של מציאות רבודה, Augmented reality. יש ל Augmented reality אמנם מרכיב של טקסט, בעיקר תרגום משפה לשפה המיועד לקהל של תיירים.Text_Recognition_and_augmented_Reality

אותי היחס הזה לטקסט מטריד. ברשומה הזו אני מנסה לדמיין את "הדבר הבא בטקסט".

קצת רקע: אני קורא לא מעט במחשב, ורוב החומר הזה נמצא בפורמט של PDF , פורמט השייך לחברת Adobe. זו שהצליחה לגרום לרוב העולם לאמץ את הפורמט הזה. היא מחלקת בחינם תכנה לקריאת הפורמט הזה, ומנסה לייצר הכנסות מכל מי שמנסה לייצר מסמכים בפורמט הזה.  לפחות זו הייתה הכוונה המקורית, אבל אני סקפטי אם זה עבד עבורם. כי כיום יש אינספור דרכים לייצר מסמכי PDF בלי לשלם לאף אחד. יש גם תכנות לקריאת PDF העולות פי כמה באיכותן של זו של  Adobe.

עדיין, אותה השאיפה הנושנה והנכזבת של Adobe לייצר רווח גורמת לחלק גדול מהטקסט שנמצא בפורמט הזה להיות בלתי שמיש. בנוסף, יש לקבצים האלה אוסף מגוחך של הרשאות שיוצר המסמך יכול לקבוע באופן בלתי הפיך, כמו חסימת האפשרות להעתיק חלק מהטקסט, לשנות בו דברים או להדפיס אותו. שוב, דברים שאולי פעם נראו לאנשים חשובים, אך היום רק כולאים ים של טקסטים בתוך פורמט שלא מאפשר לעשות הרבה דברים חשובים.

ויש עוד דבר מאד מהותי לפורמט של קבצי PDF. בניגוד לקבצים של ספר אלקטרוני, PDF הוא מוכוון נייר. הפורמט משמר הן את סידור הטקסט והן תמונות הנלוות אליו, על דף נייר בגודל מסוים. אפשר להגדיל או להקטין את גודל האותיות על המסך, אבל אורך השורות לא הולך להשתנות – הטקסט או שיגלוש מהמסך אם הגדלת יותר מדי, או לא יתפוס את כל רוחב המסך אם לא הגדלת מספיק. אם יש על הדף כמה טורים של טקסט, אין בנמצא תכנה שאני מכיר שתגלול לך את הטקסט טור אחרי טור על גבי מסך צר למשל, כמו של טלפון. הטורים תמיד ישארו האחד ליד השני, ואתה אמור לסרוק את הדף מעלה-מטה והצידה, כך שכדאי שתהיה לך תפיסה מרחבית טובה…

וכמובן שאין אפשרות לשנות את הגופן לכזה שיותר נוח לך בעין. אם מישהו החליט הפקת מסמך באיזשהו גופן ביזארי (כל מה שהוא עם סריף, לדעתי), אז זה מה שיש. כך תקרא את המסמך.

רוב הטקסטים שיש לי הם בעצם תמונות של טקסט, תוצר של סריקה ברזולוציה נמוכה מדי מכדי שתוכנה תוכל לזהות את מראית האותיות כטקסט בעל משמעות, ולכן אי אפשר למשל לחפש בטקסט מילה כזו או אחרת. אבל ככה זה כשרוצים קבצים שאפשר לשתף בקלות, למשל בדואר אלקטרוני. ברזולוציה קצת יותר גדולה תכנה כן מסוגלת לפחות לזהות את השורות של הטקסט כך שאפשר לפחות "למרקר" קטעי שורות – תהליך החיוני לרבים במהלך של קריאה לצורך הבנה. לפעמים אפשר אפילו לבחור מילים בודדות. אבל זה לא אמין.Fullscreen capture 09042014 110114

אם רוצים שהתכנה תוכל לזהות את הטקסט כטקסט, מה שנקרא OCR(optical character recognition) צריך לסרוק את המקור ברזולוציה ממש גבוהה ולייצר קבצי ענק שקשה לשתף, אבל אם זיהוי הטקסט היה עובד כמו שצריך (והוא לא), אז מיד אחרי הזיהוי, הקובץ היה הופך לקובץ קטן ביותר וקל לשיתוף.

חשבתי על דרכים בהם אפשר להפוך את "טקסט" לאזרח יותר שווה זכויות בעולם הדיגיטלי, זה שכיום עיקר ההשקעה ותשומת הלב בו היא בדימויים – ווידאו ותמונות. אני חושב שרוב המרכיבים של מה שאני הולך לתאר כבר קיימים במקומות אחרים.

אני מודע שמעבר לחסמים הטכנולוגיים, כמו יכולת שרחוקה מלהיות מושלמת של זיהוי ממוחשב של אותיות בתמונה (OCR) ברוב השפות, (קצת יותר טוב באנגלית) ותרגום אוטומטי שמייצר בדרך כלל גיבוב אותיות חסר משמעות, ישנם חסמים לא טכנולוגיים לא מבוטלים, כמו זכויות יוצרים, שקצצו מאד בכנפי פרויקטים מושקעים ועתירי טכנולוגיה כגון google books. ברור לי שכל שירות של טיפול בטקסט חייב לספק תגמול הוגן לאנשים שהשקיעו בכתיבה, תרגום, עריכה והוצאה לאור. אנסה להציע פה פתרונות הוגנים.

מה שהייתי רוצה לראות הוא סוג של שירות, כמו למשל השירותים שחברת google  מציעה: של מפות, או דואר אלקטרוני. או מערכת כמו של tripadvisor שבה קהל הגולשים מדרג בתי מלון, מסעדות ואתרי תיירות. שירות שיאפשר את הדברים הבאים:

0.0 – רוב הטקסטים הסרוקים, נסרקו כאשר ספר מונח, פניו מטה, על משטח הזכוכית של הסורק. מה שאומר שכל שני עמודים מנוגדים, הפכו להיות עמוד אחד מבחינת התכנה. אפשר לראות את זה כ"טורים", ולא פעם גם כל אחד מהעמודים בעצמו מחולק לטורים. כשקוראים ספר שכזה, ורוצים שטור אחד ימלא את כל המסך, משמעות הדבר היא מין דפדוף מסובך, שחלקו הזזה ימינה ושמאלה וחלקו דפדוף מעלה מטה. אבל כל כך פשוט לזהות שכל אחד מהריבועים של טקסט שעל מה שהקובץ המקורי חושב שהוא עמוד, או טור, הוא בעצם עמוד בפני עצמו, וכך לאפשר מעבר פשוט מעמוד לעמוד רק על ידי דפדוף…רלוונטי במיוחד למכשירים בעלי מסך קטן מ 14 אינצ'ים.Presentation1-001

0.1 – בכלל, כל השטות הזו של "עמוד" היא שטות מימי הנייר. כשמסמך נקרא בפורמט אלקטרוני, הרבה יותר פשוט ונוח לקרוא כאשר שורות הטקסט נגללות באופן אחיד. אפשר לשמור את מספרי העמודים המקוריים בשולי הטקסט, למי שרוצה, ואפשר לאפשר למי שרוצה להדפיס את הטקסט על פי העימוד המקורי, או להתאים את ההדפסה לגודל דף הנייר וקנה המידה. אבל בשביל לבטל את החלוקה לדפים, צריך לפחות לזהות את שורות הטקסט, גם ללא זיהוי האותיות שבהן.

0.2 – הפרדת ים הפיקסלים שבכל דף לאלמנטים תחביריים מובחנים: פרקים, פסקאות, שורות ומילים. גם ללא זיהוי של האותיות עצמן שהוא תהליך יותר קשה. עצם הייצוג כמילים ומשפטים מאפשר הצגה גמישה של הטקסט על אמצעי תצוגה שונים, בעלי גדלי מסך שונים: מטלפון, דרך טאבלט, מחשב אישי נייד, מסך מחשב גדול, טלוויזיה. בלי צורך להזיז את תמונת הטקסט ימינה ושמאלה בכל שורה.

1 – שדרוג קבצי טקסט, גם כאלה שנסרקו באיכות ירודה, לטקסט קריא, שבו זוהו האותיות, כך שאפשר לחפש בו ואולי גם לערוך אותו. קשה קצת יותר, אך יש לי רעיונות (בהמשך) איך לעשות את זה.

2 – מערכת לשיתוף של הערות ופרשנות לטקסטים. זו אינה מערכת שיתוף של טקסטים שיש בה בעייתיות חוקית. זו מערכת שבה לכל מי שיש עותק של טקסט מסויים, יש גישה לכל ההערות והפרשנות שאנשים הוסיפו לטקסט זה,  עם מערכת דירוג שתוכל לעזור לאנשים לדעת בקלות לאיזה הערות כדאי להם להתייחס.

3 – אפשרות לקַשֵר בין גרסאות של הטקסט בשפות שונות; ברמת המילה או לפחות ברמת המשפט, עם יחס מיוחד לשפת המקור. כולל אפשרות להתמודד עם מספר תרגומים לאותה השפה או עם מספר גרסאות של הטקסט – אפילו בשפת המקור. (הכוונה כאן אינה לתרגום ממוחשב של טקסטים – הטכנולוגיה לזה לא באמת קיימת.)

כדי שאפשר לעשות את 2 ו 3, על ה"טקסט" לחזור ולהיות טקסט, בפורמט שמחשב יכול לקרוא – כלומר – אותיות ולא פיקסלים. קבצים שבהם הטקסט הוא רק תמונה לא מאפשרים את זה. אבל כדי שתמונה תהפוך טקסט, עליה להיות באיכות מספיק טובה ורוב קבצי הטקסט הם לא כאלה. חלקם אפילו נסרקו כשספר הונח פתוח על זכוכית הסורק, לא מפורק, וקצות השורות בעותק הסרוק מתפתלות כלפי מטה (או מעלה), כך שאפילו לבני אדם קצת קשה לקרוא את האותיות שבקצה השורה. לא אחת, יש חלקים של הדף שחסרים, או ששורות הטקסט לא מקבילות לקצה העותק הסרוק. בעיה.

בעיה שיכולה להיפתר על ידי ריבוי משתמשים. יש הקוראים לזה "מיקור המון" (crowd sourcing).

למחשב קשה אמנם לזהות באמינות גבוהה כל אות ואות בדף, אבל יחסית קל לו לזהות שדף מסוים בעותק של ספר שהוכנס למערכת על ידי משתמש אחד, זהה לדף שמשתמש אחר הכניס בעותק אחר של אותו הספר. שני הקבצים לא חייבים היו להיסרק באותו כושר הפרדה (רזולוציה), ואפילו לא חייבים להכיל בדיוק אותו מספר עמודים. אבל אם יש את אותו הדף בשני קבצים שונים, גם אם באחד מהם הדף אולי הונח קצת עקום ובשני חלק מהשורות נקצצו או מתעקלות לקראת סופן, אפשר לגלות באופן אוטומטי שמדובר באותו הדף. ישנם מספר אלגוריתמים בתחום הראיה הממוחשבת המאפשרים לייצר "חתימה" ייחודית מתמונה, וכל דף של טקסט אפשר לראות אותו כתמונה, כך שעותקים שונים של אותו הדף, גם אם הם נסרקו אחרת (למשל כפי שתואר מעלה) יפיקו חתימות שהן מספיק קרובות בכדי שאפשר יהיה למצוא את כל העותקים של כל דף, מתוך כל העותקים שבכל הקבצים שכל המשתתפים "הביאו" אל המערכת. פה דווקא באה לעזרה העובדה שבקבצי PDF איו למשתמש יכולת לשלוט בעיצוב, כמו למשל להחליף גופן או לשנות את רוחב השוליים.

כעת, די בכך שאחד העותקים של הדף הוא כבר בפורמט של טקסט של ממש, או לפחות תמונה באיכות ממש גבוהה כך שאפשר לזהות בה כל אות ואות באמינות גבוהה, אזי אפשר "לפענח" בהצלחה גם כל עותק אחר של הדף, גם אם הוא באיכות ירודה, חסר או עקום. אפשר להחזיר למשתמש שסיפק עותק ירוד שכזה, את הטקסט שהושג מהגרסה הכי איכותית של אותו הדף. אם יש תמונות או דימויים בדף, גם איכות אלה יכולה להיות משופרת בעותק המשודרג.

נקודה חשובה היא שאין מספקים לאף משתמש טקסט שלא היה לו מלכתחילה, רק גרסה משודרגת של הטקסט שכבר יש לו, שאותו הוא יכול היה לקרוא גם קודם – רק לא באופן ממוחשב. ואין זה מעניינה של המערכת איך הושג אותו העותק. מרגע שלמשתמש יש עותק כלשהו של דף, הוא קנה לעצמו את הזכות לשדרג את איכות הטקסט בדף זה, וליהנות מכל התכונות שהמערכת שתתואר כאן מספקת.

גם אם כל הדפים הקיימים במערכת, שזוהו כעותקים של דף מסוים קיימים רק בגרסאות של תמונה (image), אזי יש עדיין טכניקות, שוב מתחום הראיה הממוחשבת או טכניקות המשמשות להגדלת האיכות של וידאו ולהפקת תמונות איכותיות ממנו (super-resolution) המאפשרות, על ידי מיזוג המידע התמונתי ממספק עותקים של הדף, לייצר תמונה מאוחדת של הדף שבה יש יותר פרטים ושאת האותיות בה אפשר לזהות באמינות יותר גבוהה. ככל שיהיו יותר משתמשים, שיספקו יותר עותקים של אותו דף טקסט, כך יקל יותר יהיה לייצר עותק איכותי של הדף. וכך, כל אחד מהמשתמשים שסיפקו עותק, יקבל עותק משודרג, קריא יותר, כזה שבתכולתו אפשר לחפש, אפשר לסמן, אפשר להעביר למעבד תמלילים ולערוך.

וכאן אני מגיע לחלק היותר משמעותי של המערכת – מה אפשר לעשות עם הטקסט כשהוא כבר נגיש כטקסט, כאותיות, לא רק כתמונה.

אפשר כאמור להעביר אותו למעבד תמלילים, ואז להכניס לתוכו תוכן נוסף, הערות, קישורים רלוונטיים, פרשנות. אבל אז, הטקסט מאבד את הקשר עם קהילת הקוראים שלו. מאותו הרגע, כל איש לעצמו. כל הכוח של "חכמת ההמונים", של הרשת, כבר לא זמין יותר לקורא אותו טקסט מרגע זה.

לכן, חייבים מערכת המספקת את הכלים להוספה של "מטא-טקסט" לטקסט: הערות, הסברים, קישורים, הדגשות של קטעים משמעותיים, מילון מונחים המוזכרים בטקסט ועוד, אבל כך שאפשר להפריד בבירור בין המקור לתוספות, שיהיה ברור מיהו המחבר של כל אלמנט טקסטואלי. במערכת שכזו, כל מי שניגש למערכת עם עותק כלשהו של הטקסט, יכול ליהנות מכל העושר המצטבר של כל אותו ערך מוסף שהוסף לטקסט על ידי כל קהיליית הקוראים שלו. אלא שכדי שהקורא לא יטבע בים של תוספות חסרות ערך, חייבת להיות מערכת של דירוג איכות ההערות, על ידי קהילת הקוראים עצמה. לא רעיון חדש, דווקא כזה המיושם ברוב השירותים של תוכן המסופק על ידי "הגולשים", המשתמשים בעצם.

סוג אחד של מטא-טקסט שבו אני משתמש לא מעט, והייתי רוצה לראות יותר ממנו, הוא האזכור בסוגריים בתוך הטקסט (או בהערות שוליים, או בהערות בסוף הספר) של המונח בשפת המקור שהמתרגם חשב, בדרך כלל בצדק, שהבאתו תסביר יותר טוב את הדברים. בעיקר כאשר אין מילה מקבילה בשפה אליה תורגם הטקסט כולו. דוגמאות רבות לכך יש בטקסטים של פילוסופים גרמניים ששפתם עשירה בתחיליות וסיומות המאפשרות ליצור משורש אחד ריבוי גדול של מילים שמשמעותן שונה אך כולן קשורות בטבורן לאותו שורש. ברוב השפות האחרות, מילה אחת מסוג זה מיתרגמת לשלוש-ארבע מילים, תכופות מחוברות במקפים, ועדיין, זה לא ממש זה.

אם נדקדק, אין באמת בשום תרגום, משום שפה לשום שפה, שום מילה שיש לה מקבילה זהה לחלוטין בשפה השנייה. יש תמיד הבדלי ניואנסים הנובעים מהבדלי התרבות בין דוברי השפות השונות. וולטר בנימין, כשהוא כותב על "שליחותו של המתרגם" (שתורגם כ"משימתו של המתרגם") מביע כדוגמה את המילה "לחם" בגרמנית וצרפתית. חישבו על זה, מה עובר לגרמני ולצרפתי בראש כשכל אחד מהם חושב על המילה "לחם" בשפתו שלו. אין להשוות.

אחד הדברים שאני מוצא מאירי עיניים במיוחד הוא לקרוא את "הקדמת המתרגם" לספר. ההתעכבות הזו על לבטיו של המתרגם היא לא אחת הקדמה מצוינת לספר עצמו. היא מאפשרת הבנה טובה ביותר של הטקסט המתורגם. אבל לפעמים אין ברירה, ואני מוצא את עצמי יושב עם התרגום לעברית ולידו "פתוחים" (בחלונות. טוב, זה במחשב) התרגום לאנגלית ולפעמים גם המקור בגרמנית או בצרפתית. שפות שאני לא ממש קורא. עדיין, ראיית המונחים במקור, או בתרגום האחר, מוסיפה המון להבנת הטקסט, גם כאשר התרגום סביר. כאשר התרגום היה סביר לזמנו אך כבר לא סביר היום, כמו הרבה מאותם "תרגומי המופת" לעברית שנעשו לפני חמישים ושישים שנה, ההשוואה לתרגום עדכני יותר, אפילו בשפה אחרת, היא כלי מצוין.

וכאן אני מגיע לחלק השלישי של המערכת שהייתי רוצה שמישהו יבנה. האפשרות לקשר בין גרסאות שונות של אותו הטקסט, באותה השפה או בשפות אחרות. ראיתי דוגמה לא רעה לממשק כזה כאשר google translate  מתרגם דף אינטרנט.Fullscreen capture 02042014 165435

כאן צריכה לבוא הסתייגות: הרבה יותר קל לשייך משפט מתורגם למשפט בשפת המקור כאשר התרגום הוא ממוחשב – למרות שהתרגום הממוחשב כלל אינו קריא ובעל משמעות ברוב המקרים, הוא לפחות מתרגם משפט למשפט, ומאפשר לשמור על הקשר ביניהם. תרגום אנושי לא תמיד ישמר את סימני הפיסוק כך שיהיה יותר קשה להצמיד מקור לתרגום. קשה, אבל אפשרי, אם לא ברמת המילה אז ברמת המשפט. אם לא ברמת המשפט, אז ברמת הפיסקה. איך לעשות את זה? על בסיס אותם העקרונות של תרגום ממוחשב, אפשר באופן אוטומטי, באחוזי הצלחה לא רעים לדעתי, להתאים שורה מתורגמת לשורת מקור. ביחוד באם עוברים על הטקסט מתחילתו, ומניחים שברמת הפרק יש תיאום מלא בין המקור לתרגום וברוב המקרים גם ברמת הפיסקה. זה לא יהיה מושלם, אך במערכת המשלבת תכנה עם חוכמתם השיתופית של המשתתפים, שבה המערכת מסמנת את המקומות שבהם היא לא בטוחה בהתאמה ומאפשרת למשתמשים לתקן, להוסיף או להעיר, אפשר להגיע לאחוזים גבוהים של התאמה. אין צורך בהתאמה מלאה כי עדיין, כל גרסה של הטקסט עומדת בפני עצמה, וההתאמה לשפה האחרת היא משהו מאד מועיל, אך אי התאמה פה ושם לא גורעת משמעותית. כי אין מדובר פה בתרגום אוטומטי – התרגום כבר קיים, ונעשה ביד אנוש.

מערכת כזו שבה כל הגרסאות, בכל השפות, קשורות זו בזו בקשר בלתי אמצעי יכולה לקרב את חזונו המיסטי משהו של וולטר בנימין, של התקרבות לאותה שפה מושלמת שאבדה לנו עם התמוטטות הפרויקט של מגדל בבל. בנימין רואה כאידאל את הגרסאות של כתבי הקודש שבהן משולבות גרסת המקור והתרגום ברמה של שורה -שורה. או בלשונו:

Denn in irgendeinem Grade enthalten alle große Schriften, im höchsten aber die heiligen, zwischen den Zeilen ihre virtuelle Übersetzung. Die Interlinearversion des heiligen Textes ist das Urbild oder Ideal aller Übersetzung.

אפשר לחשוב גם על מערכת כמו זו המתוארת מעלה שתאפשר תרגום מבוזר של טקסטים, בעזרת ציבור גדול של גולשים. אבל זה דורש מחשבה נוספת. רק רעיון, קצת יותר בוסרי מהאחרים שפה.

ואחרון אחרון חביב: איך לגרום לבעלי הזכויות על הטקסט המקורי ועל תרגומיו לרצות להיות חלק מהמערכת הזו ולא לחסום אותה?

נתחיל בזה שבמערכת הזו, לא נוצרים עותקים חדשים של טקסטים. לכל משתמש יש גישה רק לדפים שהוא "הביא עמו מהבית". אין טעם להידרש לשאלה אין הוא השיג אותם, והמערכת צריכה להניח שהוא הגיע לידיו כחוק: קנה ספר, וסרק אותו. או שקיבל אותו ממערכת הטקסטים של אוניברסיטה, כחוק, לצורך לימודיו (אפשר לסרוק עד 20% מהספר, וברוב המקרים, יש הקפדה על כלל זה.) המשתמש מקבל עותק משודרג בהרבה של הדפים שאתם הגיע, אבל זה עדיין אותו החומר.

ועדיין, מערכת כזו צריכה לתמרץ את בעלי הזכויות לשתף בה חומר. למשל, אם מו"ל מעלה למערכת גרסת טקסט מלאה (אותיות) של ספר, והוא היחידי שעשה כן, אזי המערכת יכולה לגבות מהמשתמשים תשלום קטן עבור ההמרה של דפים מתמונה לאותיות ולהעביר אותו למו"ל. ועדיין, אף אחד לא מקבל דפים של טקסט שאין לו מלכתחילה. העותק השלם של הספר נשאר מוגן במערכת.

המו"ל מקבל בנוסף אפשרות למַעֵן בחומר פרסומי את הקהל המעוניין בטקסטים שאותם הוא מוציא לאור, ויכול גם להציע להם לרכוש את החלקים של ספרים שעדיין אין להם (כמו שהוצאת Lonely Planet מציעה לרכוש פרקים בודדים של מדריכי הנסיעות שלה). יתירה מזאת, כל אותו ה"מטא-טקסט" שהמשמשים יוסיפו מוסיף ערך לספר שהמו"ל השקיע כסף בהוצאתו לאור.

אם המוציאים לאור היו ממספרים את העותקים המודפסים, הייתה גם אפשרות להעלות למערכת דף המכיל את המספר הסידורי של הספר, ובכך להוכיח בעלות שתאפשר למו"ל לתת או למכור לך במחיר סמלי, עותק דיגיטלי של הספר.

יש מודלים אחרים, כמו למשל ה Kindle של אמזון, שמיועדים למי שמוכר טקסטים. אבל הם לא ממש רלוונטיים לכאן, כי המערכת של שדרוג טקסטים לא מיועדת להפצת טקסטים או מכירתם, רק לשדרוגם של טקסטים קיימים, בעיקר כאלה שהחלו את חייהם כעותק מודפס.

האם זה יספיק? לא יודע. צריך אולי מישהו כמו סטיב ג'ובס (איפה הוא כשצריך אותו…) לשכנע את בעלי הזכויות לטקסטים להסתגל לעולם החדש הזה. זו הייתה הגאונות האמתית שלו, לא יכולת המצאה טכנית. Google books הסתבך קשות עם הפרויקט הזה, של המרת כל אותה אות מתה לאות דיגיטלית, שאתה אפשר לעשות דברים. והם עשו זאת בתקציבי ענק. אבל גוגל היא (לדעתי) פשוט חברת התכנה הגרועה בעולם.

עד שיגיע חזון אחרית הימים הזה, אפשר לפחות להשתמש בתכנה יותר מוצלחת מזו של אדובי לקריאת ויצירת קבצי PDF, שיש לה גם גרסה חינמית לא רעה. נסו את PDF-XChange Editor.

והנה כמה ספרים בפורמט PDF שהצטברו אצלי.

התרגומים הנושנים

כתבה בעיתון היום, על תעשיית הפסיכומטרי, 7000 ש"ח לא יכניסו אותך למועדון ה 700, החזירה אותי לתקופה בה טל בני התכונן לבחינה. הייתי די מופתע לראות כמה רבות המילים שהוא לא הכיר במילון הפסיכומטרי שבית הספר להכנה לבחינה הפיק. והוא בתורו היה מופתע מכך שהוריו מכירים את רובן, ואפילו "על נקלה".

כתבתי כבר קודם בשבחי קורסי ההכנה לפסיכומטרי, כ"ערכאה" של לימוד בין התיכון לאוניברסיטה המכסה תחום לימוד שאף אחד משניהם לא מכסה. השיטה עובדת, ובסוף התהליך טל אכן הכיר את כל המילים ברשימה. אבל מה שיותר מדהים מבחינתי הוא שצורת הלימוד הזו, ה"דחיסה" המרוכזת של אלפי מושגים ומונחים, נדמה שבפועל גם הרחיבה את עולם המושגים שלו. לפעמים אפילו הוא שם לב שהוא משתמש במילים "של פסיכומטרי" בחיי היום-יום.

חלק מההבדל באוצר המילים בינינו לבינו הוא דורי –  פער של דור. ליתר דיוק פער של דור בתרגומי הספרים אותם קראנו לאלה שהוא קרא. חלק מאוצר המילים "הפסיכומטרי" הוא פשוט מושגים ומונחים שהתיישנו ויצאו מהאפנה, מילים שמתרגם שתרגם את הספרים שילדי קראו, או סופר שכתב אותם בעברית, פשוט כבר לא מצאו מתאימות לשימוש. לא על פי רוח הזמן.

את רוב ספרי הילדות שלי, קיבלתי בירושה ממישהו שהיה מבוגר ממני בכ 15 שנים, ושפתם הייתה אכן מיושנת, גם אם נפלאה. את חלקם תרגמו אנשים כמו שלונסקי וטשרניחובסקי. כתוצאה, שפתי כילד וכנער הייתה "עשירה" יחסית לבני גילי, כי שפה "עשירה" מנקודת מבט של מבוגרים, היא כשמתבגרים או נערים משתמשים באוצר המילים של הדור שלהם. "ארכאית" היא כשמשתמשים באוצר המילים של דור קודם.

מאותה שפה ארכאית משהו, טרחתי להיפטר בצבא. זה פשוט עלה לי ביוקר…

בעברית, שהיא שפה מומצאת במידה רבה, "מחודשת" על ידי מחדשי השפה, פער הדורות כנראה בולט פחות מאשר בשפות כמו אנגלית, צרפתית וגרמנית שלהן יש רצף של התפתחות במשך מאות רבות של שנים. בכל זאת, אנו מסוגלים לקרוא את התנ"ך בלי קושי. אבל בשני הדורות האחרונים, העברית נעשתה יותר "נורמלית" והחלה מתפתחת ומשתנה בקצב יותר מהיר, כמו שצריך…זו הרי שפה חיה, שתרבות שוקקת חיה בתוכה, ומשנה אותה מדי יום.

אז למה כדאי לקרוא את התרגומים הישנים של יצירות מופת? יש סיבות טובות יותר מלהצליח בפסיכומטרי. נתחיל בזה שיש לשפה הנושנה הזו חן משל עצמה, שרובו נוסטלגיה. נמשיך בזה ששפה מיושנת נתפסת לא אחת על ידי הדור הקודם לשלך כשפה עשירה.  ולפעמים זה פשוט מאתגר להבין את המונח שבחר המתרגם. הייתי צריך לתרגם בראשי את "זיבדת שעורים" מארוחת הבוקר המתוארת ב"הר הקסמים" לאנגלית (cream of wheat) כדי להבין שמדובר בסך הכל ב"סולת"…

כשקוראים את התרגום הנושן של הר הקסמים (תומס מאן), היחידי שקיים בעברית, יש הזדמנות  להכיר לא רק את עולמם של הגרמנים בתקופה שאחרי מלחמת העולם הראשונה, אלא גם את העולם של ישראל כפי שהוא משתקף בשפה העברית של תחילת שנות החמישים. שניים בכרטיס אחד…

תרגומים זה סבבה, אבל לקרוא במקור זו הדרך הישירה ביותר לעולם שבו חי הכותב, ולעולם אותו יצר. כתבתי על זה בלמה ללמוד שפות. במידה לא מעטה בגלל שיש דברים שאי אפשר לתרגם, לפחות לא נאמנה.

המושגים שהוגים גרמניים כמו היידגר או צרפתיים כמו לאקאן טבעו הם במקרים רבים נגזרות של מילים קיימות. בגרמנית זה אפשרי כי גרמנית היא שפה המבוססת על הרכבה של שורשים עם מבחר גדול של קידומות וסיומות, ועל התכה של מילים יחד. המונחים שנוצרים בדרך זו כדי לסמן את המושגים החדשים הנחוצים להבנת עולם ההגות של הוגים נוטים להיות מובנים אינטואיטיבית בשפת המקור, אבל כמעט לא ניתנים לתרגום, לפחות לא למילה אחת הנושאת אותו מטען אסוציאטיבי כשל המונח בשפת המקור. למשל:  Zuhandenheit  של היידגר שבאנגלית מתורגם כ "presence-at-hand" ובעברית לא הייתי יודע אפילו איך להתחיל לתרגם. אולי "התכונה של היות נוכח לפני התודעה כשלעצמו"?

לא ממש חייבים להיות מסוגלים לדבר בשפה אותה מנסים לקרוא. זה, הרבה יותר קשה. לא חייבים אפילו להיות מסוגלים לכתוב באותה שפה, לבטח לא באופן רהוט, ואם רק רוצים להבין את התרגום של טקסט יותר טוב, מספיק להיות מסוגלים לזהות את שורשי המילים, ולהבין מילה אחר מילה קטעים מהטקסט בשפת המקור. בגרמנית, הקצת שאני זוכר מהסבים והסבתות שלי עוזר מאד.

 

למה ללמוד שפות

למדתי לאחרונה משהו, שנראה לי בדיעבד ברור מאליו – שאנו חושבים במילים. לא רק מדברים במילים אלא ממש חושבים במילים. שמעתי את הגילוי הזה (או אולי הניסוח של זה) מיוחס לפילוסוף לודוויג ויטגנשטיין, אבל נראה לי שזהו סוג התובנות הנושבות עם רוח הזמן, ושהגיע הזמן שנגיד את זה לעצמו ממש בצורה שכזו.

התובנה כאן היא שהלשון, השפה אותה אנו דוברים ובה אנו משתמשים, היא הביטוי של עולם המושגים שלנו. כלומר, שכל מושג הזמין למחשבתנו, צריך מסמן בשפה אותה אנו דוברים. אם אין לנו דרך להביע מושג בשפתנו, כנראה שעדיין לא המשגנו אותו, הוא עוד לא "התגלה לנו". או שאולי פשוט עוד לא הגיע זמנו או שזמנו כבר חלף. או שהוא לא חלק מה"עולם" בו אנו חיים. העולם במובנו הצר – לא היקום, לא הגלקסיה. רק הספירה החברתית-תרבותית בתוכה אנחנו שוכנים, שרובה משותפת אך חלקה פרטי לחלוטין.

אבל בהחלט אפשרי, אפילו סביר, שיש מושגים שאינם חלק מהעולם שלי אבל הם כן חלק מעולמם של אחרים. והייתי רוצה להפוך מושגים אלה גם לחלק מהעולם שלי.

למה? למה בעצם כדאי לי לעשות את זה? האם זה סתם יצר האספנות שטבוע בי, זה שבעבר תורגם לאיסוף בולים או עצי פרי נדירים? אולי היום אני סתם אוסף מושגים כאספן. ואולי אני עושה את זה בגלל שזו הסיבה היחידה ששווה בגללה ללמוד, כמובן אחרי, ובנוסף, ללימוד במטרה לרכוש מקצוע (לימוד שלא רק "ראוי" אלא הוא ממש חובה מוסרית).

דרך אפשרית אחת להרחיב את עולם המושגים שלנו היא ללמוד שפות אחרות. גם בגלל המילים הייחודיות לשפות אלה שמאפשרות לדוברי אותה השפה להמשיג את אותם המושגים שהשפה שלי חסרה. יש לי דוגמאות רבות, אבל רק "בקטנה" – המילה "מְבַּלַה"  בערבית מדוברת, שמשמעותה "דווקא כן". או למשל המושג "פראייר", שאני חושד שלא קיים בהרבה שפות אחרות. (הייתי שמח אם היה מילון כזה, המכיל את המילים הייחודיות שיש בשפה מסוימת שאין בשפות אחרות.)

מתרגמים נתקלים כל הזמן במילים שאין להן מקבילה בשפה אליה מתרגמים. מה שהם עושים הוא להשתמש במספר מילים כתחליף לאותה המילה, אלא שמשפט כזה יכול להיות רק קירוב למושג שאותו מסמנת אותה המילה הבלתי ניתנת לתרגום.

יכול להיות שיש אפילו מילה דומה בשפת היעד של התרגום, שמתרגם שאינו קפדן יכול לחשוב שהיא תרגום ראוי. אבל אפילו במילים פשוטות, כמו למשל "לחם" (כך מסביר וולטר בניימין ב"משימתו של המתרגם) יש הבדל ניכר במשמעות בין שפה לשפה. כשגרמני אומר לחם בגרמנית, יש לו בראשו מושג אחרי לגמרי ממש שיש לפלאח מצרי כשהוא אומר לחם בערבית מצרית. בשני המקרים מדובר על מוצר העשוי מקמח, אבל בזה בערך מסתכם הדמיון.

טוב, אולי זו לא דוגמה טובה. כי מצרי שילמד גרמנית בסניף הקהירי של מכון גתה למשל, לא יבין מה brot אומר לגרמני אלא אם הוא יטעם בפועל אחד ממאות סוגי הלחם הגרמני. מה שאומר אולי שלימוד שפה הוא תנאי הכרחי אך לא מספיק לכניסה לעולם ההמשגות של דוברי אותה שפה. אבל אולי במושגים מופשטים קיימת אפשרות לרכש מושגים משפה אחרת בדרך של לימוד בלבד?

עולמם של אחרים יכול להיחשף לי ולהרחיב את "עולמי", כלומר את אוצר המושגים שזמינים לתודעתי, דרך הכרת שפות אחרות, אבל, ואולי אפילו יותר , דרך הכרת שיחים אחרים. ראיתי מעט מזה כאשר יצאתי לברר מהי משמעות המונח "ראיפיקציה" (חיפצון או החפצה בעברית) וחזרתי עם מספר דו ספרתי של משמעויות, מתחומי ידע שונים, מ"שיחים"  ( discourses) שונים.

אני רואה את זה כל יום, כשאני עובר משיעור בחוג לספרות אל אחד בחוג לפילוסופיה, או תקשורת, או מחשבת ישראל (כן, כן) או אמנות. בעצם אני עובר משיח אחד לשני, ומעולם המשגות אחד לאחר. נכון, מפתיע עד כמה יש דמיון בין עולם המושגים של השיחים השונים, בכל זאת, רוח הזמן וכל זה.. אבל ישנו גם השוני בין צורת ההמשגה של מושגים קרובים או דומים, גם הוא מועיל ומרחיב "עולם".

קחו למשל את המילה "מיקוד". יש לה משמעות ברורה בצילום, וגם משמעות ברורה ואחרת לגמרי בהקשר של "החומר אליו יש להתכונן לבחינת הבגרות". בחקר הספרות, משמעות "מיקוד"  (focalization) היא שהסיפור הוא כולו מנקודת המבט של הגיבור (גם אם  לא מסופר בגוף ראשון). מושג מועיל לרכוש אם אתה (כמוני) מנסה לכתוב כתיבה בדיונית פה ושם.

בקנה מידה קטן יותר, אפשר אפילו לומר שכאשר שני אנשים הדוברים את אותה שפה מדברים זה עם זה, הם 1 – לא משתמשים בשפה באותה הצורה ממש, כי כל אחד יש לו את הצורה האופיינית רק לו בה הוא בוחר באיזה מילים להשתמש ואיך. ו 2 – גם כששני אנשים משתמשים באותה המילה ממש, אפילו באותו הקונטקסט, יש להם ברוב המקרים, בעצם אפשר לומר תמיד, מושג מעט שונה (האחד מהשני) על משמעות המילה אותה הם דוברים. חישבו על המילה "אדום" למשל. אני די בטוח שהגוון של אדום שעולה בדמיוני כעת כשאני כותב את זה שונה מהגוון העולה בדמיונכם כשאתם קוראים את זה.

חישבו על המילה "שולחן" (מילה שפילוסופים אוהבים להדגים דברים בעזרתה, אולי כי הם עומדים לפני אחד כזה כשהם מלמדים פילוסופיה. גם אני, כפות רגלי היחפות מונחות על קצה השולחן כשאני כותב את המשפטים האלה). כשאני חושב על "שולחן", המושג שיש לי בראש מורכב מאוסף השולחנות שאתם באתי במגע בימי חיי, וכולל במידה לא מועטה את שולחן המטבח שעשיתי במו ידי מגזע שלם של עץ מייפל אותו קניתי במגרש עצים ליד נהר הקולומביה בפרברי העיר פורטלנד, אורגון. מה הסיכוי שיש עוד מישהו על כדור הארץ שחושב על "שולחן" בדיוק כמוני?

היכולת להרחיב עולם בעזרת הבנה של האופן השונה שבו בני שיחי מבינים את המושגים העומדים מאחורי המילים, בשפה המשותפת בה אנו מתקשרים, דורש (כנראה) כישור שיש לי ממנו כמות מוגבלת מאד – אמפתיה. אבל גם לאנשים כמו זוגתי שתחיה, שכישוריה בתחום מפותחים בהרבה משלי, זו לא דרך אפקטיבית להגדיל עושר מושגי.

אז מה כן? אפשר תמיד ללמוד את משנתם של הוגים, שהמעמיקים שבהם, כמעט כולם, בראו עולם ויצרו שפה חדשה, חלקם עם מילים שהמציאו ממש או "שיבשו" קלות, בכדי לתאר את אותו העולם. דוגמאות:  הגל, מרכס, היידגר, לאקאן, דרידה, פוקו, ליוטאר..  יש אפילו "מילונים" המבארים את עולם המושגים שחלקם המציאו למשל: מילון מבואי לפסיכואנליזה לאקאניאנית  של דילן אוונס או הערך Heideggerian terminology  בויקיפדיה. ובקנה מידה זעיר, מילון המושגים שאני אוסף כאן.

אם הייתי "רציני", הייתי גם אני ממציא פה איזה מונח כדי לתאר איזה מושג, והרשומה הזו הייתה גם הרבה יותר ארוכה, אבל אני די בטוח שבשלב זה אני רק מסכם דברים שאחרים כבר אמרו וחשבו ולכן, אם הייתי "רציני" הייתי רק עושה צחוק מעצמי (לא שזה מפריע לי, אבל חבל לי להשקיע זמן בזה).

לקריאה נוספת, הגדרה של המושג "מושג" שכתב עדי אופיר.

פרוזודיה

אחד האלבומים האהובים עלי ביותר הוא Prosody, אלבום ג'אז של הרכב טרנס-אירופי שמוביל המתופף האיטלקי אלדו רומנו. לצערי לא מצאתי ב Youtube סרטון עם הקטע הזה אבל חיפוש של Aldo Romano יעלה לא מעט קטעים יפים אחרים שלו.

האלבום הזה נבלע בתוך ים הדיסקים הממלאים אצלי את המגירות ושלרובם אני לא ממש מגיע בתדירות הראויה. יש פשוט כל כך הרבה מוזיקה באינטרנט, שיותר מהיר לגשת למוזיקה שמאוחסנת בשרתים של google בקצה השני של העולם מאשר למצוא את זה במגירות מטר לידך.  אולי אני צריך פשוט לעשות rip לכל הדיסקים. אחרי שאסרוק את כל השקופיות, מה שיקרה כנראה קצת אחרי אחרית הימים..

google הרבה פחות עצלנים ממני. הם עסוקים בהעברת המידע הטקסטואלי שבספרים קדימה, אל עולם התוכן הדיגיטלי כדי שיוכל להיות נגיש הרבה יותר. google books סיימו עד כה לסרוק 7% מהספרים שיצאו לאור בכל ההיסטוריה של הדפוס, מאז גוטנברג (יש לי חשד שהם עיוורים לספרים שנדפסו לפני גוטנברג, בסין למשל). 7% נשמע אחוז נמוך, אבל זה כבר מספיק כדי להעמיד לרשות חוקרי בלשנות ותרגום קודקסים (אוספי טקסטים) אדירים שבכל ההיסטוריה האנושית לא היה שום דבר שמתקרב אליהם עד שני סדרי גודל.

אתמול פיניתי זמן בלוח הזמנים הצפוף שלי (ברצינות!) והלכתי לשמוע הרצאה בחוג לחינוך באוניברסיטת חיפה, של נועם אורדן על בלשנות חישובית. המרצה היה אחד מלא הרבה אנשים המסוגלים לגרום לי להרגיש רגשי נחיתות. האיש חכם ברמות, ורב תחומי. אבל הציג את החומר בצורה נגישה וברורה, גם לי, הלא-בלשן היחידי בחדר כנראה. וממנו למדתי מהי פרוזודיה שלילית. וגם נזכרתי בקיומו של אלבום הג'ז Prosody.

Prosody, פרוזודיה בעברית, על פי ההגדרה בויקיפדיה היא "מושג בבלשנות השייך לתחום העוסק באקוסטיקה של הדיבור. המושג מתייחס למאפיינים אקוסטיים מסוימים של הדיבור הנושאים חלק גדול מהמידע המועבר בתקשורת דבוּרה".

ובחזרה להרצאה. נועם אורדן משתמש בכלים ממוחשבים לחקר הלשון והתרגום. דוגמאות: מה למשל עושים מתרגמים המתרגמים טקסטים לאנגלית עם המילה "דווקא"? מסתבר שב 80% מהמקרים, פשוט משמיטים אותה. אין מילה אנגלית שמעבירה את המובן במדויק  ולכן או שבונים קונסטרוקציה לשונית שלמה כדי להעביר את המושג או שפשוט אין "דווקא" בתרגום לאנגלית. מעורר מחשבה לא? אולי אם גם בעברית לא היה המונח דווקא, היינו אחרים? למשל אולי היינו (דווקא!) תומכים בהכרה במדינה פלסטינית במקום לעשות לכל העולם דווקא ולבנות בין ירושלים למעלה אדומים כך שלא יהיה שום אפשרות למדינה פלסטינית בעלת רצף גאוגרפי בין יהודה לשומרון? או שאולי דווקא כל כך שכיח בטקסטים בעברית דווקא בגלל שאנחנו כאלה דווקאים להכעיס? כנראה שזה עובד לשני הכיוונים. הוא ציטט שם את הבלשן הצ'כי רומן יעקובסון שאמר ששפות מתייחדות דווקא במה שהן חייבות להיות מסוגלות להביע, ודווקא היא דוגמה מוצלחת במיוחד. אנחנו צריכים אותה בשפה העברית כי אנחנו כאלה, והיותה בשפה מחזקת את נטייתנו להיות כאלה דווקא.

זה אולי המקום להזכיר את שני האיכרים מכפר תבור, שלאחד מהם בא מלאך והציע לו למלא משאלה אחת, כל משאלה, אבל סייג נתן לו. שכל מה שהוא יבקש, שכנו יקבל כפליים. לאחר מחשבה קצרה, ביקש ממנו האיכר: "תוציא לי עין אחת". לא מזכיר את הפוליטיקאים שלנו?

ובחזרה לפרוזודיה: הייתם משערים שהפועל "גרם" יכול להיות בשימוש הן בהקשר חיובי והן בהקשר שלילי, לא? אפשר לגרום לדברים חיוביים שיקרו, ואפשר לשליליים. אז מסתבר שלמילה "גרם" בעברית, כמו למילה "cause" באנגלית יש "פרוזודיה שלילית". כשבודקים בקודקסים הגדולים בסמיכות לאיזה מונחים מופיע הפועל "גרם", רואים שבטקסטים כתובים, תמיד "גורמים" לדברים שליליים. וזו הכוונה ב"פרוזודיה שלילית". לי זה היה ממש לא אינטואיטיבי, אבל בדיעבד, אולי סביר. גם מזה אני חושב שאפשר להפיק איזו תובנה, בנלית משהו, על הטבע האנושי. השפה הרי משקפת את ההוויה, חוץ מזה שהיא גם יוצרת אותה. אז מה, המין האנושי גורם רק נזק? לכוכב הלכת בו אנו מתארחים ולבעלי החיים החולקים אותו אתנו – לבטח.

יש עוד לא מעט מונחים בעלי פרוזודיה שלילית, כמו למשל "התנהלות", והיו עוד הרבה דברים ממש מרתקים בהרצאה הזו. בלשנות היא ממש לא נושא משעמם כפי שפעם חשבתי, ביחוד אם בוחנים אותה ככלי בחקר התרבות האנושית. והשימוש בכלים ממוחשבים על קודקסים גדולים מאפשר להוריד את החלק הטרחני בהתעסקות הבלשנית ומאפשר data mining המפיק תופעות ממש מרתקות.

ולגבי הרשומה הזו עצמה:

1 – התחלתי אותה בטלפון הנייד בשרותים, בגלישה סלולרית. המשכתי אותה במחשב הנייח בבית ואני גומר אותה במחשב הנייד, מחובר לרשת האלחוטית של אוניברסיטת חיפה בהמתנה תחילת הקורס מבוא לאנתרופולוגיה. אין ספק שמעבד התמלילים הרגיל פשוט הולך למות. עשרים שנה מעכשיו, יהיה צורך להסביר לאנשים מה זה היה. כמה אנשים היום זוכרים מה זה בדיוק PDA? (רמז: palm pilot?)

2 – נראה לי שהרשומה הזו היא טיפוסית לסוגה ספרותית ש"המצאתי" ופיתחתי פה בבלוג – כתיבה שלא מתנגדת להפרעת קשב אלא דווקא זורמת אתה. וגם – כתיבה שמנסה להיות כל הזמן משני צידי המראה, גם לכתוב על הדברים וגם לכתוב על הכותב אותם, ובלולאה חזרה למקום בו אני יושב, רק בשיעור הקודם פה למדנו שכל אתנוגרפיה המכבדת את עצמה כיום, חייבת לכלול לא רק את תיאור התרבות אותה חוקר האנתרופולוג, אלא גם את תיאור החוקר ומיקומו ביחס לקבוצה הנחקרת, את יחסי הכוחות ביניהם ובחינה עצמית לגבי אלו פנים של התרבות הנחקרת נגישים לו ואלו לא. מסתבר שכאתנוגרף חובב אני נוהג ליישם את זה – עוד לפני שלמדתי שזו מצוות אנשים מלומדה באנתרופולוגיה מודרנית.

3 – ובשיעור אחר, של אמנות עכשווית, למדתי שהדבר כעת הוא בכלל "אוטו-אתנוגרפיה", בה בן הקבוצה הנחקרת הוא זה הכותב את האתנוגרפיה. אז אני עוד צריך לבדוק ולחשוב איך להגדיר את הקבוצה שאת האוטו-אתנוגרפיה שלה אני יכול לכתוב.