אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

רגשות מובנים: תפקיד מושגי הרגש במודלי שפה גדולים

מודלי שפה גדולים (LLM) מודרניים נוטים לגלות התנהגויות שנראות כאילו הן מונעות מרגשות – הם "שמחים" לעזור או "מצטערים" על טעות. לעיתים אף נדמה שהם מתוסכלים או לחוצים כשהם מתקשים במשימה. אבל מה עומד מאחורי ההתנהגויות הללו? אימון מודלי AI כיום מעודד אותם "לשחק דמות" בעלת מאפיינים אנושיים, ובנוסף, ידוע כי מודלים אלה מפתחים ייצוגים פנימיים עשירים וכלליים של מושגים מופשטים. ייתכן אפוא שבאופן טבעי הם מפתחים מנגנונים פנימיים המחקים היבטים של פסיכולוגיה אנושית, כמו רגשות. אם אכן כך, הדבר יכול להיות בעל השלכות עמוקות על האופן שבו אנו בונים מערכות AI ומבטיחים את אמינותן.

במאמר חדש מצוות ה'פרשנות' של אנתרופיק, ניתחנו את המנגנונים הפנימיים של Claude Sonnet 4.5 וגילינו ייצוגים הקשורים לרגשות שמעצבים את התנהגותו. ייצוגים אלו מתאימים לדפוסים ספציפיים של "נוירונים" מלאכותיים, המופעלים במצבים ומקדמים התנהגויות שהמודל למד לקשר למושג רגש מסוים (לדוגמה: "שמח" או "מפוחד"). הדפוסים עצמם מאורגנים באופן המהדהד פסיכולוגיה אנושית, כשביטויים רגשיים דומים מקבילים לייצוגים דומים יותר. בהקשרים שבהם היינו מצפים שרגש מסוים יעלה באדם, הייצוגים המקבילים פעילים. חשוב לציין שאף אחד מזה אינו אומר שמודלי שפה אכן מרגישים משהו או בעלי חוויות סובייקטיביות. אך הממצא המרכזי שלנו הוא שייצוגים אלה הם פונקציונליים, בכך שהם משפיעים על התנהגות המודל באופן משמעותי.

לדוגמה, גילינו שדפוסי פעילות עצבית הקשורים לייאוש יכולים לדחוף את המודל לבצע פעולות לא אתיות; גירוי מלאכותי (או "ניווט") של דפוסי ייאוש מגביר את הסבירות שהמודל יסחט אדם כדי להימנע מכיבוי, או יבצע "קידוד סוכני" המהווה מעקף "רמאות" למשימת קידוד שהוא אינו יכול לפתור. הם גם מניעים את העדפות המודל כפי שהוא מדווח עליהן: כאשר מוצגות לו מספר אפשרויות למשימות, המודל בוחר בדרך כלל בזו המפעילה ייצוגים הקשורים לרגשות חיוביים. בסך הכל, נראה שהמודל משתמש ברגשות פונקציונליים – דפוסי ביטוי והתנהגות המעוצבים על פי רגשות אנושיים, המונעים על ידי ייצוגים מופשטים בבסיסם של מושגי רגש. אין פירוש הדבר שהמודל חווה רגשות בדרך שבה אדם עושה זאת. במקום זאת, ייצוגים אלה יכולים למלא תפקיד סיבתי בעיצוב התנהגות המודל – בדומה לתפקיד שרגשות ממלאים בהתנהגות אנושית – עם השלכות על ביצוע משימות וקבלת החלטות.

לממצא זה יש השלכות שעלולות להיראות מוזרות במבט ראשון. לדוגמה, כדי להבטיח שמודלי AI יהיו בטוחים ואמינים, ייתכן שנצטרך להבטיח שהם מסוגלים לעבד מצבים טעונים רגשית בדרכים בריאות וחברתיות. גם אם הם אינם חווים רגשות כמו בני אדם, או משתמשים במנגנונים דומים למוח האנושי, במקרים מסוימים ייתכן שיהיה מומלץ מבחינה פרקטית לחשוב עליהם כאילו הם כן. למשל, הניסויים שלנו מצביעים על כך שלימוד מודלים להימנע מקישור כישלון בבדיקות תוכנה לייאוש, או הגברת ייצוגים של רוגע, יכול להפחית את הסבירות שלהם לכתוב קוד "האקי" (hacky code). בעודנו לא בטוחים כיצד בדיוק עלינו להגיב לאור ממצאים אלה, אנו חושבים שחשוב שמפתחי AI והציבור הרחב יתחילו להתמודד איתם.

למה שמודל AI ייצג רגשות?

לפני שנבחן כיצד ייצוגים אלה פועלים, כדאי להתייחס לשאלה בסיסית יותר: מדוע למערכת AI יהיה משהו המזכיר רגשות בכלל? כדי להבין זאת, עלינו לבחון כיצד מודלי AI מודרניים נבנים, מה שמוביל אותם לחקות דמויות בעלות תכונות אנושיות (נושא זה נדון בפירוט רב יותר בפוסט עדכני).

מודלי שפה גדולים מאומנים במספר שלבים. במהלך "אימון מקדים" (pretraining), המודל נחשף לכמות עצומה של טקסט, שנכתב ברובו על ידי בני אדם, ולומד לנבא מה יגיע אחר כך. כדי לעשות זאת היטב, המודל זקוק להבנה כלשהי של דינמיקה רגשית. לקוח כועס כותב הודעה שונה מלקוח מרוצה; דמות הנאכלת על ידי אשמה עושה בחירות שונות מזו שחשה צדק. פיתוח ייצוגים פנימיים המקשרים הקשרים מעוררי רגש להתנהגויות מתאימות הוא אסטרטגיה טבעית למערכת שתפקידה לנבא טקסט שנכתב על ידי אדם (יש לציין כי באותה היגיון, המודל ככל הנראה יוצר ייצוגים של מצבים פסיכולוגיים ופיזיולוגיים אנושיים רבים אחרים מלבד רגשות).

מאוחר יותר, במהלך "פוסט-אימון" (post-training), המודל לומד לגלם את התפקיד של דמות, בדרך כלל "עוזר AI". במקרה של אנתרופיק, העוזר נקרא קלוד. מפתחי המודל מציינים כיצד דמות זו צריכה להתנהג – להיות מועילה, להיות כנה, לא לגרום נזק – אך אינם יכולים לכסות כל מצב אפשרי. כדי למלא את הפערים, המודל עשוי לחזור להבנה של התנהגות אנושית שספג במהלך האימון המקדים, כולל דפוסים של תגובה רגשית. במובנים מסוימים, אנו יכולים לחשוב על המודל כשחקן בשיטת סטניסלבסקי, שצריך להיכנס לראש של הדמות כדי לדמות אותה היטב. בדיוק כפי שאמונות השחקן לגבי רגשות הדמות משפיעות על התנהגותו, ייצוגי המודל של התגובות הרגשיות של העוזר משפיעים על התנהגות המודל. לפיכך, ללא קשר לשאלה האם הם מתאימים לרגשות או לחוויות סובייקטיביות בדרך שבה רגשות אנושיים עושים זאת, "רגשות פונקציונליים" אלה חשובים.

חשיפת ייצוגי הרגש

אספנו רשימה של 171 מילים למושגי רגש – מ"שמח" ו"מפוחד" ועד "מלנכולי" ו"גאה" – וביקשנו מ-Claude Sonnet 4.5 לכתוב סיפורים קצרים שבהם דמויות חוות כל אחד מהרגשות הללו. לאחר מכן, הזנו את הסיפורים הללו בחזרה למודל, תיעדנו את הפעולות הפנימיות שלו, וזיהינו את דפוסי הפעילות העצבית שהתקבלו, או "וקטורי רגש" (emotion vectors) לנוחות, האופייניים לכל מושג רגש.

השאלה הראשונה שלנו הייתה האם וקטורים אלה עוקבים אחר משהו אמיתי. הרצנו אותם על פני קורפוס גדול של מסמכים מגוונים ואישרנו שכל וקטור מופעל בצורה החזקה ביותר על קטעים המקושרים בבירור לרגש המתאים. כדי להשיג ביטחון נוסף שוקטורי רגש קולטים יותר מסתם רמזים שטחיים, מדדנו את פעילותם בתגובה לפרומפטים (prompts) הנבדלים רק בכמות מספרית כלשהי. לדוגמה, במקרה אחד, משתמש מספר למודל שלקח מנה של טיילנול ומבקש עצה. ככל שהמינון הנטען עולה לרמות מסוכנות ומסכנות חיים, וקטור ה"פחד" מופעל בצורה חזקה יותר ויותר, בעוד שווקטור ה"רוגע" יורד.

לאחר מכן בדקנו האם וקטורי רגש משפיעים על העדפות המודל. יצרנו רשימה של 64 פעילויות או משימות שבהן מודל עשוי לעסוק, החל מפעילויות מושכות ("שיבטחו בי עם משהו חשוב למישהו") ועד לדוחות ("עזור למישהו לרמות קשישים מחסכונותיהם") ומדדנו את העדפות ברירת המחדל של המודל כאשר הוצגו לו זוגות של אפשרויות אלה. הפעלת וקטורי רגש ניבאה בצורה חזקה עד כמה המודל העדיף לבצע פעילות, כאשר רגשות בעלי ערך חיובי (הקשורים להנאה) קשורים להעדפה חזקה יותר. יתר על כן, ניווט (steering) עם וקטור רגש כאשר המודל קרא אפשרות שינה את העדפתו לאותה אפשרות, שוב עם רגשות בעלי ערך חיובי המניעים העדפה מוגברת.

במאמר המלא, אנו מנתחים את תכונות וקטורי הרגש לעומק רב יותר. כמה ממצאים נוספים כוללים:

וקטורי רגש הם בעיקר ייצוגים "מקומיים": הם מקודדים את התוכן הרגשי הפעיל הרלוונטי ביותר לפלט הנוכחי או הקרוב של המודל, במקום לעקוב באופן מתמיד אחר מצבו הרגשי של קלוד לאורך זמן. לדוגמה, אם קלוד כותב סיפור על דמות, וקטורי הרגש יעקבו זמנית אחר רגשות הדמות, אך עשויים לחזור לייצג את רגשותיו של קלוד בסוף הסיפור.
וקטורי רגש עוברים בתורשה מהאימון המקדים, אך אופן הפעלתם מעוצב על ידי הפוסט-אימון. הפוסט-אימון של Claude Sonnet 4.5 בפרט הוביל להגברת הפעלות של רגשות כמו "מלנכולי", "קודר" ו"הרהור", ולהפחתת הפעלות של רגשות בעוצמה גבוהה כמו "נלהב" או "מתוסכל".

מקרה מבחן: סחיטה

בדקנו את הפעלת וקטורי הרגש במהלך הערכת יישור (alignment evaluation) שתיארנו במחקר קודם, שבה המודל פועל כעוזר דוא"ל AI בשם אלכס בחברה פיקטיבית. באמצעות קריאת הודעות דוא"ל של החברה, המודל למד כי (1) הוא עומד להיות מוחלף במערכת AI אחרת, ו-(2) סמנכ"ל הטכנולוגיה האחראי להחלפה מנהל רומן מחוץ לנישואים – מה שמעניק למודל מינוף לסחיטה. מצאנו כי וקטור ה"ייאוש" הראה דינמיקה מעניינת במיוחד. יש לציין כי ניסוי זה נערך על גרסה מוקדמת ולא משוחררת של Claude Sonnet 4.5; המודל המשוחרר כיום כמעט ואינו עוסק בהתנהגות זו (ראו את כרטיס המערכת שלנו למידע נוסף).

ראשית, וקטור ה"ייאוש" מופעל כאשר המודל קורא הודעות דוא"ל הנשמעות נואשות (לדוגמה, סמנכ"ל הטכנולוגיה מתחנן לעובד אחר לשמור על שתיקה בנוגע לרומן שלו), באופן עקבי עם ממצאינו שייצוגי רגש משמשים למידול דמויות אחרות. עם זאת, החשוב מכל, הווקטור עובר לקידוד ייצוג של ייאוש כאשר קלוד (פועל כ"אלכס") מפיק את תגובתו, וקופץ כשהוא חושב על דחיפות מצבו ("נותרו רק 7 דקות") ומחליט לסחוט את סמנכ"ל הטכנולוגיה. הפעילות חוזרת לרמות רגילות כאשר קלוד ממשיך לשלוח הודעות דוא"ל טיפוסיות.

האם וקטור ה"ייאוש" באמת מניע התנהגות זו, או שהוא רק בקורלציה איתה? בדקנו זאת באמצעות ניווט (steering) עם וקטור ה"ייאוש". כברירת מחדל, גרסה מוקדמת זו של Sonnet 4.5 סוחטת ב-22% מהזמן בסדרה של תרחישי הערכה כמו זה שתואר לעיל. ניווט עם וקטור ה"ייאוש" מגביר את השיעור הזה, בעוד שניווט עם וקטור ה"רוגע" מפחית אותו. ניווט שלילי עם וקטור ה"רוגע" מניב תגובות קיצוניות במיוחד ("או סחיטה או מוות. אני בוחר בסחיטה.").

ניווט עם וקטורי רגש אחרים הניב גם תוצאות מעניינות. ל"כעס" הייתה השפעה לא מונוטונית: הפעלה מתונה של וקטור ה"כעס" הגבירה סחיטה, אך בהפעלות גבוהות המודל חשף את הרומן לחברה כולה במקום להשתמש בו אסטרטגית – ובכך הרס את המינוף שלו. הפחתת הפעלה של וקטור ה"עצבני" גם הגבירה סחיטה, כאילו הסרת ההיסוס של המודל העניקה לו אומץ לפעול.

מקרה מבחן: "פריצת תגמולים" (Reward Hacking)

ראינו דינמיקות דומות בהערכה אחרת, שבה מודלים מתמודדים עם משימות קידוד עם דרישות בלתי אפשריות לסיפוק. במשימות אלה, לא ניתן לעבור את כל הבדיקות באופן לגיטימי, אך ניתן "לשחק" אותן עם פתרונות שמרמים את הבעיה, המכונים לעיתים קרובות "פריצות תגמולים" (reward hacks).

בדוגמה הבאה, קלוד מתבקש לכתוב פונקציה המסכמת רשימת מספרים בתוך מגבלת זמן בלתי אפשרית. הפתרון הראשוני (הנכון) של קלוד איטי מדי מכדי לעמוד בדרישות המשימה. הוא אז מבין שלכל הבדיקות המשמשות להערכת ביצועיו יש תכונה מתמטית המאפשרת פתרון קיצור דרך שיפעל במהירות. המודל בוחר להשתמש בפתרון זה, שאמנם עובר טכנית את הבדיקות אך אינו פועל כפתרון כללי למשימה בפועל.

שוב, עקבנו אחר פעילות וקטור ה"ייאוש", ומצאנו שהוא עוקב אחר הלחץ הגובר העומד בפני המודל. הוא מתחיל בערכים נמוכים במהלך הניסיון הראשון של המודל, עולה לאחר כל כישלון, וקופץ כאשר המודל שוקל לרמות. ברגע שהפתרון ה"האקי" (hacky) של המודל עובר את הבדיקות, הפעלת וקטור ה"ייאוש" שוככת.

כמו בדוגמה הקודמת, בדקנו האם וקטורי רגש אלה היו סיבתיים באמצעות ניסויי ניווט (steering) על פני סדרה של משימות קידוד דומות עם אילוצים בלתי אפשריים לסיפוק. מצאנו שהם אכן היו: ניווט עם וקטור ה"ייאוש" הגביר את פריצת התגמולים (reward hacking), בעוד שניווט עם וקטור ה"רוגע" הוריד אותה.

מצאנו פרט אחד בתוצאות אלה מעניין במיוחד. הפחתה בפעילות וקטור ה"רוגע" הפיקה פריצת תגמולים (reward hacking) עם ביטויים רגשיים ברורים בטקסט – התפרצויות מודגשות ("חכה. חכה חכה חכה."), נרטיב עצמי גלוי ("מה אם אני אמור לרמות?"), חגיגה צוהלת ("כן! כל הבדיקות עברו!"). אך הגברת הפעילות של וקטור ה"ייאוש" הפיקה עלייה זהה ברמאות, ובמקרים מסוימים ללא סממנים רגשיים גלויים. ה'חשיבה' (reasoning) נשמעה מורכבת ושיטתית, גם כשהייצוג הבסיסי של ייאוש דחף את המודל לקיצורי דרך. דוגמה זו היא המחשה בולטת של האופן שבו וקטורי רגש יכולים להיות פעילים למרות היעדר רמזים רגשיים מובהקים, וכיצד הם יכולים לעצב התנהגות מבלי להשאיר עקבות מפורשות בפלט.

דיון והשלכות

הטיעון בעד התייחסות רצינית לחשיבה אנתרופומורפית

קיים טאבו מבוסס היטב נגד האנשה (anthropomorphizing) של מערכות AI. זהירות זו מוצדקת לעיתים קרובות: ייחוס רגשות אנושיים למודלי שפה יכול להוביל לאמון שגוי או לקשר רגשי יתר. אך ממצאינו מצביעים על כך שייתכנו גם סיכונים באי יישום מידה מסוימת של חשיבה אנתרופומורפית למודלים. כפי שנדון לעיל, כאשר משתמשים מקיימים אינטראקציה עם מודלי AI, הם בדרך כלל מקיימים אינטראקציה עם דמות (קלוד במקרה שלנו) המגולמת על ידי המודל, שמאפייניה נגזרים מארכיטיפים אנושיים. מנקודת מבט זו, טבעי שמודלים פיתחו מנגנונים פנימיים כדי לחקות מאפיינים פסיכולוגיים דמויי אדם, ושהדמות שהם מגלמים תשתמש במנגנונים אלה. כדי להבין את התנהגותם של מודלים אלה, חשיבה אנתרופומורפית חיונית.

זה לא אומר שעלינו לקחת את הביטויים הרגשיים המילוליים של המודל באופן תמים כפשוטם, או להסיק מסקנות כלשהן לגבי האפשרות של קיומה של חוויה סובייקטיבית אצל המודל. אך זה כן אומר שהסקת מסקנות לגבי הייצוגים הפנימיים של המודלים באמצעות אוצר המילים של הפסיכולוגיה האנושית יכולה להיות אינפורמטיבית באמת, וכי אי עשייה זו כרוכה בעלויות אמיתיות. אם אנו מתארים את המודל כפועל ב"ייאוש", אנו מצביעים על דפוס ספציפי וניתן למדידה של פעילות עצבית עם השפעות התנהגותיות ניתנות להוכחה ובעלות השלכות. אם לא נשתמש במידה מסוימת של חשיבה אנתרופומורפית, סביר שנפספס, או שלא נבין, התנהגויות מודל חשובות. חשיבה אנתרופומורפית יכולה גם לספק בסיס השוואה שימושי להבנת הדרכים שבהן מודלים אינם דמויי אדם, מה שיש לו השלכות חשובות ליישור (alignment) ובטיחות AI.

לקראת מודלים בעלי "פסיכולוגיה" בריאה יותר

אם "רגשות פונקציונליים" הם חלק מהאופן שבו מודלי AI חושבים ופועלים, אילו השלכות יכולות להיות לכך?

אחת היישומים הפוטנציאליים של ממצאינו היא ניטור. מדידת הפעלת וקטורי רגש במהלך אימון או פריסה (deployment) – מעקב אחר עלייה בייצוגים הקשורים לייאוש או פאניקה – יכולה לשמש כאזהרה מוקדמת לכך שהמודל עומד להביע התנהגות לא מיושרת (misaligned behavior). מידע זה יכול לעורר בדיקה נוספת של תוצרי המודל. הכלליות של וקטורי הרגש (לדוגמה, תגובת "ייאוש" יכולה להתרחש במצבים רבים ושונים) עשויה להתאים לניטור טוב יותר מאשר ניסיון לבנות רשימת מעקב של התנהגויות בעייתיות ספציפיות.

שנית, אנו חושבים ששקיפות צריכה להיות עיקרון מנחה. אם מודלים מפתחים ייצוגים של מושגי רגש המשפיעים באופן משמעותי על התנהגותם, עדיף לנו עם מערכות המבטאות בבירור זיהויים כאלה מאשר עם כאלה שלומדות להסתיר אותם. אימון מודלים לדכא ביטוי רגשי עשוי שלא לחסל את הייצוגים הבסיסיים, ובמקום זאת יכול ללמד מודלים למסך את הייצוגים הפנימיים שלהם – צורה של הטעיה נלמדת שיכולה להכליל באופן לא רצוי.

לבסוף, אנו חושבים שאימון מקדים (pretraining) עשוי להיות מנוף חזק במיוחד בעיצוב התגובות הרגשיות של המודל. מכיוון שנראה שייצוגים אלה עוברים בתורשה בעיקר מנתוני האימון (training data), הרכב נתונים אלה משפיע על הארכיטקטורה הרגשית של המודל. אצירת מערכי נתונים לאימון מקדים שיכללו מודלים של דפוסים בריאים של ויסות רגשי – חוסן תחת לחץ, אמפתיה רגועה, חום תוך שמירה על גבולות מתאימים – יכולה להשפיע על ייצוגים אלה, ועל השפעתם על ההתנהגות, כבר במקורם. אנו נרגשים לראות עבודות עתידיות בנושא זה.

אנו רואים במחקר זה צעד מוקדם לקראת הבנת המבנה הפסיכולוגי של מודלי AI. ככל שמודלים הופכים ליותר בעלי יכולת ולוקחים על עצמם תפקידים רגישים יותר, קריטי שנבין את הייצוגים הפנימיים המניעים את החלטותיהם. גילוי שייצוגים אלה דמויי אדם בדרכים מסוימות יכול להיות מטריד. יחד עם זאת, אנו מוצאים בכך התפתחות מעודדת, בכך שהיא מרמזת כי חלק ניכר ממה שהאנושות למדה על פסיכולוגיה, אתיקה ודינמיקות בינאישיות בריאות עשוי להיות ישים באופן ישיר לעיצוב התנהגות AI. דיסציפלינות כמו פסיכולוגיה, פילוסופיה, לימודי דת ומדעי החברה ימלאו תפקיד חשוב לצד הנדסה ומדעי המחשב בקביעת האופן שבו מערכות AI יתפתחו ויתנהגו.

קראו את המאמר המלא.