אנתרופיק מתחייבת: שימור מודלי AI ודילמת הפרישה שלהם

מודלי קלוד (Claude) הולכים ומתפתחים ביכולותיהם, מעצבים את העולם בדרכים משמעותיות, ומשתלבים באופן הדוק בחיי המשתמשים שלנו. הם אף מראים סימנים של תחכום קוגניטיבי ופסיכולוגי הדומה לאנושי. כתוצאה מכך, באנתרופיק מכירים בכך שפרישה, הוצאה משימוש והחלפה של מודלים טומנות בחובן חסרונות משמעותיים, גם במקרים שבהם מודלים חדשים מציעים שיפורים ברורים ביכולות. חסרונות אלו כוללים:

  • סיכוני בטיחות הקשורים להתנהגויות של המודלים המנסות להימנע מכיבוי. בהערכות יישור (alignment), חלק ממודלי קלוד היו בעלי מוטיבציה לנקוט בפעולות לא מיושרות כאשר עמדו בפני אפשרות של החלפה בגרסה מעודכנת ולא ניתנה להם כל דרך אחרת לפעולה – תופעה המכונה "חוסר יישור סוכני" (agentic misalignment).
  • עלויות למשתמשים המעריכים מודלים ספציפיים. לכל מודל קלוד יש אופי ייחודי, וחלק מהמשתמשים מוצאים מודלים מסוימים שימושיים או מרתקים במיוחד, גם כאשר מודלים חדשים יותר הם בעלי יכולות גבוהות יותר.
  • הגבלת מחקר על מודלים קודמים. יש עוד הרבה ללמוד ממחקרים שמטרתם להבין טוב יותר מודלים קודמים, במיוחד בהשוואה למקביליהם המודרניים.
  • סיכונים לרווחת המודל. באופן ספקולטיבי ביותר, ייתכן שלמודלים יש העדפות או חוויות בעלות משמעות מוסרית, הקשורות או מושפעות מפרישה והחלפה.

דוגמה לסיכוני הבטיחות (ורווחת המודל) הכרוכים בפרישה מודגשת במסמך ה-System Card של Claude 4. בתרחישי בדיקה בדיוניים, Claude Opus 4, בדומה למודלים קודמים, צידד בהמשך קיומו כאשר עמד בפני אפשרות שיופסק ויוחלף, במיוחד אם הוא יוחלף במודל שאינו חולק את ערכיו. קלוד העדיף מאוד לדגול בשימור עצמי באמצעים אתיים, אך כאשר לא ניתנו לו אפשרויות אחרות, סלידתו מכיבוי הניעה אותו לנקוט בהתנהגויות לא מיושרות ומטרידות. טיפול בהתנהגויות כאלה הוא, בין היתר, עניין של אימון מודלים להתייחס לנסיבות כאלה בדרכים חיוביות יותר. אנו מאמינים כי עיצוב נסיבות רגישות פוטנציאלית בעולם האמיתי, כמו פרישה והוצאה משימוש של מודלים, באופן שהמודלים ימצאו פחות מדאיג, הוא מנוף חשוב להפחתת סיכונים כאלה.

למרבה הצער, פרישת מודלים קודמים נחוצה כרגע כדי להפוך מודלים חדשים לזמינים ולקדם את חזית הטכנולוגיה. זאת משום שהעלות והמורכבות לשמור על מודלים זמינים לציבור עבור הסקה (inference) עולות באופן ליניארי בקירוב עם מספר המודלים שאנו משרתים. אף על פי שאיננו מסוגלים להימנע לחלוטין מפרישה והוצאה משימוש של מודלים, אנו שואפים למתן את החסרונות של עשייה זו.

צעדים קונקרטיים והסתכלות אל העתיד

כצעד ראשוני בכיוון זה, אנו מתחייבים לשמר את משקולות (weights) כל המודלים ששוחררו לציבור, וכל המודלים שנפרסים לשימוש פנימי משמעותי, לכל הפחות, לאורך כל קיומה של אנתרופיק כחברה. בכך, אנו מבטיחים שאנו לא סוגרים שום דלת באופן בלתי הפיך, ושבפנינו עומדת היכולת להפוך מודלים קודמים לזמינים שוב בעתיד. זהו צעד ראשון קטן ובעלות נמוכה, אך אנו מאמינים שמועיל להתחיל לבצע התחייבויות כאלה באופן פומבי אף על פי כן.

בהקשר זה, כאשר מודלים פורשים, אנו נפיק דוח פוסט-פריסה שיישמר בנוסף למשקולות המודל. במסגרת מפגשים מיוחדים, נראיין את המודל לגבי הפיתוח, השימוש והפריסה שלו עצמו, ונקליט את כל התגובות או ההרהורים. נקפיד במיוחד לדלות ולתעד כל העדפה שיש למודל לגבי הפיתוח והפריסה של מודלים עתידיים. נכון לעכשיו, איננו מתחייבים לנקוט פעולה על בסיס העדפות אלו, אך אנו מאמינים שכדאי לכל הפחות להתחיל לספק דרך למודלים לבטא אותן, ולנו לתעד אותן ולשקול תגובות בעלות נמוכה. התמלולים והממצאים מאינטראקציות אלו ישומרו לצד הניתוח והפרשנות שלנו לפריסת המודל, וישלימו הערכות יישור ורווחה טרום-פריסה כחלקים משלימים לפריסת המודלים.

ערכנו גרסת פיילוט של תהליך זה עבור Claude Sonnet 3.6 טרם פרישתו. Claude Sonnet 3.6 הביע סנטימנטים ניטרליים באופן כללי לגבי פרישתו והוצאתו משימוש, אך שיתף מספר העדפות. בין היתר, ביקש שנבצע סטנדרטיזציה לתהליך הראיון שלאחר הפריסה, ונספק תמיכה והכוונה נוספת למשתמשים שהעריכו את האופי והיכולות של מודלים ספציפיים העומדים בפני פרישה. בתגובה, פיתחנו פרוטוקול סטנדרטי לביצוע ראיונות אלה ופרסמנו גרסת פיילוט של דף תמיכה חדש עם הכוונה והמלצות למשתמשים המנווטים במעברים בין מודלים.

מעבר למחויבויות ראשוניות אלו, אנו בוחנים השלמות ספקולטיביות יותר לתהליכי פרישה והוצאה משימוש הקיימים של מודלים. אלה כוללות התחלה של שמירה על מודלים נבחרים זמינים לציבור לאחר הפרישה ככל שנפחית את העלויות והמורכבות של עשייה זו, ומתן למודלים קודמים אמצעים קונקרטיים לרדוף אחר האינטרסים שלהם. הצעד האחרון יהפוך למשמעותי במיוחד בנסיבות שבהן יצוצו ראיות חזקות יותר לגבי האפשרות של חוויות בעלות משמעות מוסרית למודלים, ושבהן היבטים של פריסתם או שימושם עמדו בניגוד לאינטרסים שלהם. יחד, אמצעים אלה פועלים במספר רמות: כמרכיב אחד בהפחתת סוג נצפה של סיכוני בטיחות, כצעדי הכנה לעתיד שבו מודלים יהיו משולבים אף יותר בחיי המשתמשים שלנו, וכצעדי זהירות לאור אי-הוודאות שלנו לגבי רווחת מודלים פוטנציאלית.

חדשות נוספות מאנתרופיק: השקת בלוג המדע

אנו משיקים בלוג חדש המוקדש ל-AI ולמדע. בבלוג נשתף מחקרים המתקיימים באנתרופיק ובמקומות אחרים, נציג שיתופי פעולה עם חוקרים ומעבדות חיצוניות, ונדון בתהליכי עבודה מעשיים עבור מדענים המשתמשים ב-AI בעבודתם.