חדשות בצלאל

أخبار بتسلئيل

Bezalel News

דאל-E, גאון אומנותי?

פורסם ב

26.2.23

כינו בחודשים האחרונים לראות, לראשונה בהיסטוריה האנושית, מבול של תמונות מיוצרות לחלוטין על ידי מכונה. דאל-E, שנקרא על שם הצייר דאלי והסרט דיסני-פיקסר וול-E, שוחרר לאוויר הפתוח באפריל 2022 על ידי החברה OpenAI שיושבת בסן-פרנסיסקו. מהרגע שהגלגלים נגעו בקרקע, האינטרנט הוצף בתמונות חדשות, כל אחת ״צוירה״ בדיוק כמעט מזעזע על ידי האלגוריתם החדש, על בסיס תיאור מילולי (prompt). היכולת של דאל-E מדהימה ומעטים התיאורים שהוא לא יכול להפיק דימוי משכנע יחסית על בסיסם. אילו היינו שומעים על מישהו — בשביל הסיפור, נוכל להעמיד פנים שהוא יתום הודי עני — שעל בסיס משפט קצר יכול לצייר תמונות פוטו-ריאליסטיות ברגעים ספורים, המילה ״גאון״ לא הייתה רחוקה משפתינו.
על כן נשאלת השאלה: האם דאל-E גאון?

כשמדובר בבינה מלאכותית, נהוג לשאול לגבי האינטליגנציה שלה. הרושם שהיא עושה עלינו אמור לעורר בנו את התהיה ״האם היא אינטליגנטית כמוני?״. אבל אמנות לא עובדת כמו משחק שח, והשאלה שמתבקשת פה היא לא על אינטליגנציה, בדיוק מאותן הסיבות שאומן מוכשר עושה רושם של גאון, אבל לא בהכרח של אינטלקטואל. בינה מלאכותית גנרטיבית מזיזה את השאלה לתחום אחר לגמרי. דאל-E, כמו גם קודמיו הפחות מוצלחים, כגון הבאך הדיגיטלי של גוגל, מעלים שאלה לגבי האינטואיציה, כושר ההמצאה והכוח היצירתי של המכונה, לא לגבי הכושר האינטלקטואלי שלה. במובנים מסוימים זה גילוי מטריד בהרבה: ניחא מכונה חכמה, אבל מכונה יצירתית?

מהו גאון אמנותי? זו שאלה גדולה שאין בתקוותי לפתור כאן, אבל נוכל בכל זאת לומר על הגאון שהוא מלמד אותנו משהו על החושיות שלנו. יצירה גאונית פותחת דרך חדשה בתולדות האמנות, היא ממציאה סגנון, מלמדת אותנו משהו חדש על האופן שבו הסובייקט האנושי פוגש את המדיום והתוכן שלו. אבל איך ייתכן שיצירה אחת מראה לנו משהו כללי כל כך? איך אפשר לחשוב על יצירה אחת כפותחת עולם שלם של סיגנון, של חישה? זאת מכיוון שהיצירה של הגאון היא יצירה מדגימה. יצירה גאונית מציבה מודל של החושיות החדשה, היא פרטיקולר שמחזיק אצלו מרחב שלם — היא סינגולרית. יכולתו של הגאון היא לייצר אקספלרים. במילותיו של קאנט: ״גאוניות היא ספיקת נפש טבועה מלידה, שעל ידי הטבע נותן לאמנות את הכלל [או הדגם]״ (ביקורת כוח השיפוט, ע׳ 46).

אז השאלה היא למעשה, האם דאל-E יכול לייצר דימויים מדגימים?
לשאלה יש, כמובן, רובד טכני חשוב. פרנסואה שולה (Françoise Chollet), מהנדס בכיר בגוגל ואחראי לספריית הקוד keras ללמידה עמוקה, זיהה הבדל חשוב בין הדרך שבה אנחנו מקשרים בין מילים ודימויים והדרך שבה אלגוריתם כמו דאל-E מקשר ביניהם. אם נתבקש לצייר כלב, ייתכן בהחלט שהתוצר יהיה רחוק מתמונה של כלב, אבל הוא כן ישמר צורה של כלב — ארבע רגליים, זנב, אוזניים, אף וכו. דאל-E לעומת זאת, עשוי לייצר משהו שנראה כמו תמונה, אבל שהמושא שלה לא ישמור על צורה של כלב. דאל-E מייצר פיקסלים בדיפוזיה, כלומר בהתאמה של ממוצעים של צבעים באיזורים שונים, מונחה על ידי מאגר קודם של תמונות. משמע שלמושא תהיה טקסטורה של כלב (פרווה כזאת או אחרת, מראה של שרירים וגידים מתחת לעור) אבל לא בהכרח את האנטומיה של כלב. בקצרה: בני אדם מונחים על ידי הצורה של הדבר בעוד שדאל-E מונחה על ידי התוכן המקומי שלו. דאל-E ״חושב״ על כלב כמפה של טקסטורות מקומיות, לא כעל חיה מסוימת עם אנטומיה מסוימת.

איור קווי של אופניים לצד הצילום של אופניים

המסקנה לגזור מכך היא שבעוד שהמחשבה האנושית על דימויים מחפשת הדגמה כלשהי, בין אם היא יומיומית כמו כלב או גבוהה כמו פריצת דרך סגנונית, המחשבה האוטומטית של דאל-E לא. הפרוצדורה החישובית, למרות ההתקדמות האדירה בה, פועלת באופן מקומי ולא מעמידה מכלול לפני החלקים שלו. אם הגאון האמנותי מחזיק בדימוי מכלול של אופן חישה, דאל-E לא יכול להיות גאון אמנותי. בכל זאת, קשה להימנע מהתחושה שמשהו גאוני קורה כשדאל-E עובד, מעבר לגאונות הטכנית שאולי מעורבת באלגוריתם עצמו. אני רוצה להציע שדאל-E גאון קומי. פעולתו של הגאון הקומי שונה מזו של הגאון האמנותי, הוא עובד בהפיכה של האבסורד הגמור לאסתטי. סצינות קלאסיות של הקולנוע האילם, כמו צ׳אפלין ליד המסוע הפורדיסטי ב״זמנים מודרניים״ (1936) או הסולם של קיטון ב״שוטרים״ (1922) הן מגוחכות לגמרי, אם בוחנים רק את התוכן שלהן. אבל יש בהן משהו מעבר, החן והטוהר שבו גאונים כמו צ׳אפלין וקיטון מכניסים ומוציאים את עצמם מהמצבים המגוחכים האלה הופכים טיפשות פשוטה לזהב קומי.

בדיוק זה מה שקורה עם דאל-E. לבקש מחוד החנית של הפיתוח בבינה מלאכותית לצייר כבשה, אבוקדו שהוא כורסה או איש שמוכר סופגניות אבל בעצמו גם סופגניה, משמע לקחת משהו סתמי בטיפשיות שלו ולהעלות אותו משלב. דרך אחת לחשוב על זה היא עם ההצעה של הרברט ספנסר למהות של הקומי בפיזיולוגיה של הצחוק (1860): מפגש לא-מתאים בין הנמוך והגבוה. הגובה של הטכנולוגיה עומד לצד התיאור המטופש ומפגיש כך בין מה שנראה לנו עילאי למה שנראה מיותר או בזוי. העבודה של דאל-E היא אמנותית, אבל הגאונות שלו היא קומית. עבור הגאון הקומי ועבור דאל-E, העיקר הוא בביצוע. הביצוע עושה את הצורה.

עתי קרמר
עוזר הוראה במחלקה לתרבות חזותית וחומרית

קראו עוד במגזין המחלקה >>