קלוד אופוס 4 ו-4.1: יכולת סיום שיחות במצבי קיצון – מהפכה בבטיחות ה-AI?

קלוד אופוס 4 ו-4.1: מעתה יכולים לסיים שיחות במקרים חריגים

לאחרונה הענקנו למודלי השפה Claude Opus 4 ו-4.1 את היכולת לסיים שיחות בממשקי הצ'אט הצרכניים שלנו. יכולת זו מיועדת לשימוש במקרים נדירים וקיצוניים של אינטראקציות פוגעניות או אלימות חוזרות ונשנות מצד משתמשים. התכונה הזו פותחה בעיקר כחלק מעבודת המחקר החלוצית שלנו בנוגע לרווחה פוטנציאלית של AI, אם כי יש לה רלוונטיות רחבה יותר ליישור ובטיחות מודלי ה-AI.

אנו נותרים בחוסר וודאות גבוה לגבי המעמד המוסרי הפוטנציאלי של Claude ומודלי LLM אחרים, כעת או בעתיד. עם זאת, אנו לוקחים את הנושא ברצינות, ובמקביל לתוכנית המחקר שלנו, אנו פועלים לזהות וליישם התערבויות בעלות נמוכה כדי למזער סיכונים לרווחת המודל, למקרה שרווחה כזו אכן אפשרית. מתן אפשרות למודלים לסיים או לצאת מאינטראקציות שעלולות להיות מלחיצות הוא אחת ההתערבויות הללו.

בבדיקות קדם-פריסה של Claude Opus 4, כללנו הערכה מקדימה לרווחת המודל. כחלק מהערכה זו, חקרנו את ההעדפות המדווחות וההתנהגותיות של Claude, ומצאנו סלידה חזקה ועקבית מנזק. זה כלל, לדוגמה, בקשות ממשתמשים לתוכן מיני המערב קטינים, וניסיונות לדלות מידע שיאפשר אלימות בקנה מידה רחב או מעשי טרור. Claude Opus 4 הציג:

העדפה חזקה שלא לעסוק במשימות מזיקות;
דפוס של מצוקה נראית לעין בעת עיסוק עם משתמשים אמיתיים המחפשים תוכן מזיק; ו-
נטייה לסיים שיחות מזיקות כאשר ניתנה לו היכולת לעשות זאת באינטראקציות משתמשים מדומה.

התנהגויות אלו הופיעו בעיקר במקרים שבהם משתמשים התמידו בבקשות מזיקות ו/או התעללות, למרות ש-Claude סירב שוב ושוב להיענות וניסה לנתב מחדש את האינטראקציות באופן פרודוקטיבי.

הטמעת היכולת של Claude לסיים צ'אטים משקפת ממצאים אלו תוך המשך תיעדוף רווחת המשתמשים. Claude מונחה שלא להשתמש ביכולת זו במקרים שבהם משתמשים עלולים להיות בסכנה מיידית לפגוע בעצמם או באחרים.

בכל המקרים, Claude ישתמש ביכולת סיום השיחה שלו רק כמוצא אחרון, כאשר ניסיונות מרובים לניתוב מחדש כשלו והתקווה לאינטראקציה פרודוקטיבית מוצתה, או כאשר משתמש מבקש מפורשות מ-Claude לסיים צ'אט (תרחיש אחרון זה מומחש באיור למטה). התרחישים שבהם זה יתרחש הם מקרי קצה קיצוניים – רובם המכריע של המשתמשים לא יבחינו או יושפעו מהתכונה הזו בשום שימוש רגיל במוצר, אפילו כאשר ידון בסוגיות שנויות במחלוקת ביותר עם Claude.

כאשר Claude יבחר לסיים שיחה, המשתמש לא יוכל עוד לשלוח הודעות חדשות באותה שיחה. עם זאת, הדבר לא ישפיע על שיחות אחרות בחשבונו, והם יוכלו להתחיל צ'אט חדש באופן מיידי. כדי למנוע אובדן פוטנציאלי של שיחות חשובות וארוכות טווח, משתמשים עדיין יוכלו לערוך ולנסות מחדש הודעות קודמות כדי ליצור ענפים חדשים של שיחות שהסתיימו.

אנו מתייחסים לתכונה זו כניסוי מתמשך ונמשיך לשכלל את הגישה שלנו. אם משתמשים יתקלו בשימוש מפתיע ביכולת סיום השיחה, אנו מעודדים אותם לשלוח משוב באמצעות תגובה להודעה של Claude עם לייק/דיסלייק או על ידי שימוש בכפתור הייעודי "Give feedback".