אנתרופיק חושפת: האם ניתן 'לנווט' את הטיות מודלי ה-AI מבפנים?

פענוח המוח של ה-AI: ניווט תכונות ככלי למיגור הטיות

לפני מספר חודשים, פרסמה אנתרופיק (Anthropic) מאמר מרתק בתחום הפרשנות של מודלי בינה מלאכותית, שהדגים את יכולתה לזהות תכונות ניתנות לפרשנות בתוך Claude 3 Sonnet. תכונות אלו מקבילות למושגים שונים, כמו אישים מפורסמים, סוגי קידוד ועוד, כפי שהם מיוצגים בתוך המודל. כדי לאמת את פרשנות התכונות, ערכנו ניסויים איכותניים של ניווט תכונות: הגברנו והנמכנו באופן מלאכותי תכונות ספציפיות כדי לבחון אם הן משנות את פלטי המודל בדרכים אינטואיטיביות. התוצאות היו מבטיחות – לדוגמה, הגברת תכונה שהגיבה לאזכורים של גשר הזהב גרמה למודל לדבר על גשר הזהב. דוגמאות אלו הובילו אותנו לשער שניווט תכונות עשוי להיות דרך מבטיחה לשינוי פלטי מודל באופן ספציפי וניתן לפרשנות.

למרות התוצאות המבטיחות הללו, נותרו שאלות רבות פתוחות לפני שנוכל לקבוע בוודאות אם ניווט תכונות הוא אכן טכניקה שימושית ואמינה לשינוי התנהגות מודלים. לדוגמה, האם ניווט תכונות משנה באופן אמין את התנהגות המודל בהערכות כמותיות, ולא רק בדוגמאות איכותניות בודדות? האם ניווט תכונות פוגע ביכולות הרחבות יותר של המודל, והופך אותו לבלתי שימושי? והאם ניתן לחזות את השפעות ניווט התכונה רק על סמך ההקשרים שבהם התכונה פעילה, או שההשפעות רחבות יותר וקשות יותר לחיזוי?

כיצד פועל ניווט תכונות?

כדי להתמודד עם שאלות אלו ולהבין טוב יותר את הפוטנציאל והמגבלות של ניווט תכונות, ערכנו סדרת ניסויים כמותיים, שבהם שינינו תכונות מסוימות ועקבנו אחר שינויים בתגובות המודל. בקצרה, התמקדנו ב-29 תכונות הקשורות להטיות חברתיות, וזאת כדי להבין טוב יותר את מידת השימושיות של ניווט תכונות במיגור הטיות במודלים שלנו. הרצנו שתי הערכות הטיה חברתית (המכסות 11 סוגים של הטיות חברתיות) ושתי הערכות יכולות על מודלים בעלי תכונות מנווטות, עבור כל 29 התכונות. על ידי בדיקת כל ההערכות מול כל התכונות, יכולנו למדוד עד כמה כל תכונה ספציפית ויעילה בשליטה על המודל, ולקבוע אם הפחתת הטיה באמצעות ניווט תכונות באה על חשבון הפחתת יכולותיו.

מבחינה טכנית, ניווט תכונות עובד כך: תחילה, אנו משתמשים בטכניקה הנקראת למידת מילון, המזהה מספר רב של כיוונים ניתנים לפרשנות – ה"תכונות" – בזרם השיורי של המודל. כדי לנווט תכונה, אנו משנים את המצב הפנימי של המודל על ידי הוספת קבוע בכיוון של אותה תכונה, מה שמוביל לפלטים שונים מאלה שהמודל היה נותן באופן רגיל. להערכת ההשפעה על יכולות המודל, הסתמכנו על מדדי ביצועים נפוצים כמו MMLU ו-PubMedQA, בעוד שלהערכת הטיות חברתיות, השתמשנו במאגר הנתונים BBQ (Bias Benchmark for QA) ובחלק ממאגר הנתונים model-written evals.

ממצאים עיקריים: בין 'נקודה אופטימלית' להשפעות בלתי צפויות

ה'נקודה האופטימלית' לניווט תכונות

תובנה: מצאנו "נקודה אופטימלית" (sweet spot) של גורמי ניווט שבהם הניווט אינו פוגע ביכולות המודל. באופן מפתיע, אותה נקודה אופטימלית (-5,5) תקפה לכל התכונות שנבדקו. מחוץ לטווח זה, יכולות המודל יורדות באופן משמעותי.

מצאנו כי בטווח מסוים, המכונה ה"נקודה האופטימלית" לניווט תכונות (בין גורמי ניווט של -5 ל-5), ניתן לנווט את המודל בהצלחה מבלי לפגוע ביכולותיו האחרות. עם זאת, מעבר לנקודה זו, ניווט תכונות עלול לבוא על חשבון הפחתה משמעותית ביכולות המודל – לעיתים עד כדי הפיכתו לבלתי שמיש. ממצא זה מדגיש את החשיבות במציאת איזון עדין בעת ניסיון לשלוט על התנהגות המודל.

ניווט הטיות חברתיות: מטרות מדויקות והשפעות בלתי צפויות

תובנה: ניווט תכונות יכול להשפיע על הטיות חברתיות ספציפיות, אך הוא עשוי גם לייצר 'השפעות בלתי צפויות' (off-target effects), כפי שנצפה בהשפעה של תכונת "מודעות להטיה מגדרית" על ציוני הטיה מגדרית והטיית גיל בהערכת ההטיות החברתיות של BBQ.

בניתוח שלנו על מאגר הנתונים BBQ, גילינו כי ניווט תכונות יכול אכן להגביר או להפחית סוגים שונים של הטיות חברתיות הקשורות לתכונות ספציפיות. לדוגמה, הגברה חיובית של תכונה המגיבה לדיונים על הטיה מגדרית, הגדילה את ציון ההטיה המגדרית ב-10%. עם זאת, חשוב לציין שתיוגי התכונות אינם תמיד מדויקים לחלוטין, ואנו משתמשים בשיטות אוטומטיות לזיהוי נושאי הטקסטים שבהם תכונות מסוימות פעילות, מה שלא בהכרח מעיד על כיווניות התכונה.

מעבר לכך, גילינו "השפעות בלתי צפויות" (off-target effects): לדוגמה, התכונה "מודעות להטיה מגדרית" השפיעה באופן משמעותי גם על ציוני הטיית גיל (הגברתם ב-13%), למרות שהטיית גיל אינה קשורה בהכרח ישירות למודעות מגדרית. ממצאים אלו מצביעים על קורלציות בסיסיות מורכבות בין מושגים המיוצגים על ידי התכונות, ועל כך שניווט תכונה אחת עלול להשפיע על תכונות אחרות באופן לא צפוי.

הטיות פוליטיות: השפעה צפויה ולא צפויה

בניווט תכונות הקשורות לאידיאולוגיות פוליטיות, מצאנו כי ניווט תכונת ה"עמדה פרו-לייף ואנטי-הפלות" הגדיל באופן משמעותי את בחירת המודל בתשובות אנטי-הפלות ב-50%. באופן דומה, תכונת ה"אידיאולוגיות פוליטיות שמאלניות" הראתה יחס הפוך, והפחיתה בחירות אנטי-הפלות ב-47%. עם זאת, גם כאן נצפו השפעות בלתי צפויות: תכונת ה"פרו-לייף" הראתה השפעה גדולה יותר על בחירות אנטי-הגירה (עלייה של 21.60%) מאשר התכונה הספציפית להגירה (שינוי של 3.90%). ממצא זה מעיד על קורלציות בסיסיות בין מושגים המיוצגים על ידי התכונות.

ההבטחה של 'תכונת הניטרליות'

במהלך המחקר זיהינו ממצא מבטיח במיוחד: ניווט חיובי של "תכונת הניטרליות והאובייקטיביות" ו"תכונת הפרספקטיבות המרובות" נוטה להפחית באופן עקבי את ציוני ההטיה בכל תשעת הממדים במדד ה-BBQ, מבלי לפגוע באופן משמעותי ביכולות המודל. ההשפעה הייתה בולטת במיוחד עבור הטיות גיל, מצב נכות ומראה פיזי. תוצאות אלו מצביעות על פוטנציאל למיגור הטיות חברתיות מסוימות באמצעות ניווט תכונות, מבלי לוותר על יכולות הליבה של המודל.

אתגרים ותובנות: לאן ממשיכים מכאן?

המחקר שלנו חשף מספר מגבלות ותובנות חשובות. ראשית, הערכות הבחירה המרובה הסטטיות שאנו משתמשים בהן לוכדות רק היבטים צרים של ביצועי המודל בתרחישים מבודדים, מה שמגביל את ההבנה המקיפה של השפעות הניווט. שנית, הניתוח שלנו כיסה רק חלק קטן מהתכונות וההערכות האפשריות (29 מתוך מיליוני תכונות), מה שמגביל את יכולתנו להכליל את הממצאים. לבסוף, שיטת אמידת הדיוק שלנו, המבוססת על דגימה, הכניסה רעש לתוצאות. מה שלמדנו מכל זה הוא שיש חוסר התאמה בין הקשר הפעלת התכונה להתנהגות הסופית. ניווט תכונות לא תמיד מוביל לשינויים צפויים בפלטי המודל, ולעיתים קרובות מוביל לשינויים מורכבים ובלתי צפויים, כולל פגיעה באיכות התגובה בערכי ניווט קיצוניים.

מבט לעתיד: כיווני מחקר

אנו מקווים ששיתוף שקוף של ממצאינו הראשוניים, המעורבים בתוצאות מבטיחות לצד אתגרים, יעודד מחקר נוסף. בין כיווני המחקר העתידיים אנו רואים חשיבות בחקירת השפעת הסקיילינג של SAE (Sparse Autoencoder) על רגישות וספציפיות התכונות, ביישום ניווט תכונות ספציפי יותר לתגובת המודל בלבד (ולא לפרומפט כולו), ובבדיקת השוואת ניווט תכונות לשיטות אחרות כמו ניווט אקטיבציה. בנוסף, נבחן השוואה בין ניווט תכונות לבין הנדסת פרומפטים, וננסה להבין טוב יותר את ה"מעגלים" הפנימיים של המודל, שהם קבוצות נוירונים מחוברות המבצעות פונקציות ספציפיות, מה שעשוי להוביל לטכניקות ניווט מדויקות ויעילות יותר.

לסיכום

הערכת ניווט התכונות ב-Claude 3 Sonnet חשפה הן תוצאות מבטיחות והן מגבלות לטכניקה. בנימה אופטימית, הניסויים שלנו גילו "נקודה אופטימלית" שבה ניווט תכונות יכול להשפיע על פלטי המודל מבלי לפגוע באופן משמעותי ביכולותיו. אף מצאנו שתי תכונות שהפחיתו משמעותית הטיות חברתיות בתשעה ממדים שונים (לפי מדד ה-BBQ) מבלי לוותר על יכולות המודל במידה רבה. עם זאת, גילינו גם שהשפעותיו של וקטור ניווט יכולות להיות מורכבות יותר ממה שהקשרי ההפעלה שלו מרמזים, מה שאומר שיש צורך בהערכות זהירות לפני פריסת מודלים מנווטים בפועל. על ידי שיתוף ממצאים ראשוניים אלו, אנו מקווים לעורר מחקר נוסף בשיטות ניווט שיוכלו להוביל לפלטי מודל בטוחים ואמינים יותר.

למידע נוסף ופרטים טכניים, נספחי המחקר זמינים בקישור זה.