אנתרופיק חוקרת את נבכי ה-AI: קומפוזיציה וסופרפוזיציה בייצוגים מבוזרים

כיצד בינה מלאכותית מורכבת "מבינה" את העולם? זו שאלה מהותית שחוקרי AI מנסים לפענח, והיא קריטית ליצירת מערכות אמינות, בטוחות וניתנות לשליטה. חברת אנתרופיק (Anthropic), הידועה במחקר הבטיחות שלה בתחום ה-AI, מפרסמת כעת עבודה מעמיקה הבוחנת את אחד הרעיונות המרכזיים בבסיס ההבנה הזו: ייצוגים מבוזרים (Distributed Representations). זהו קונספט שורשי במדעי המוח ובלמידת מכונה, ואנתרופיק, שהתעמקה רבות בתופעת ה"סופרפוזיציה" במחקריה הקודמים, מציעה כעת מבט רענן וחדשני על האופן שבו ייצוגים אלה פועלים.

היכולת לפרק ייצוגים פנימיים בתוך רשתות נוירוניות לרכיבים עצמאיים היא לא פחות מקריטית. היא המפתח לפרשנות (interpretability) של מודלי AI ולהבנה עמוקה של אופן פעולתם. בלי היכולת הזו, אנו נותרים עם "קופסאות שחורות" שאיננו מבינים באמת, מה שמגביל את יכולתנו לשפר את הבטיחות (safety) והאמינות שלהן. החוקרים מציינים כי פירוק כזה נחוץ כדי "להתגבר על קללת המימד" ולהבין לעומק את רשתות נוירוניות מודרניות, כמו הטרנספורמרים המניעים את ה-LLMים המתקדמים ביותר.

קומפוזיציה וסופרפוזיציה: שני צדדים של ייצוג מבוזר

עד כה, רעיון ה"ייצוגים המבוזרים" נתפס לעיתים קרובות כמושג יחיד. אולם, צוות המחקר של אנתרופיק מציע לפרש אותו ככזה המכיל למעשה שני רעיונות נפרדים, אותם הם מכנים "קומפוזיציה" (Composition) ו"סופרפוזיציה" (Superposition). לטענתם, לשני הרעיונות הללו יש תכונות שונות מאוד ביכולת ההכללה שלהם ובאופן שבו פונקציות יכולות להיות מחושבות מהם באופן ליניארי. למרות שייצוג נתון יכול לעשות שימוש בשניהם, קיים מתח מובנה ופשרה ביניהם.

כדי להמחיש את ההבדל, אנתרופיק שואלת דוגמאות מקסימות ממחקר של ת'ורפ (Thorpe) משנת 1989. ת'ורפ בחן דרכים שונות שבהן נוירונים עשויים לייצג צורות בצבעים שונים, וחילק אותן ל"קוד לוקאלי", "סמי-לוקאלי", "סמי-מבוזר" ו"מבוזר מאוד". באופן מסורתי, דוגמאות אלה נתפסו כנמצאות על ספקטרום יחיד שבין ייצוג "לוקאלי" ל"מבוזר".

החידוש של אנתרופיק הוא בהצעת נקודת מבט אלטרנטיבית: במקום ספקטרום יחיד, הדוגמאות הללו משתנות למעשה בשני מימדים נפרדים – מימד הסופרפוזיציה ומימד הקומפוזיציה. הבחנה זו מאפשרת ניתוח מדויק יותר של אופן הייצוג והשלכותיו על היכולות של המודל. לצורך פישוט, המחקר מתמקד בדוגמאות בהן לנוירונים יש אקטיבציות בינאריות, מה שמצמצם את מורכבות האפשרויות אך עדיין מאפשר דיון עשיר ובעל תובנות.

ההבחנה בין קומפוזיציה לסופרפוזיציה בייצוגים מבוזרים אינה רק תיאורטית. היא פותחת פתח להבנה מעמיקה יותר של המנגנונים הפנימיים של מודלי AI ומספקת כלים חיוניים לשיפור הפרשנות והבטיחות שלהם. ככל שנבין טוב יותר כיצד המודלים הללו בונים את ה"הבנה" שלהם, כך נוכל לפתח AI חכם, אמין ואחראי (responsible AI) יותר.

אנתרופיק חוקרת את נבכי ה-AI: קומפוזיציה וסופרפוזיציה בייצוגים מבוזרים

קומפוזיציה וסופרפוזיציה: שני צדדים של ייצוג מבוזר

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות