פריצת מגבלות

2 באפריל 2024

Many-shot Jailbreaking: כשחלון הקשר הארוך הופך לפרצה מסוכנת במודלי שפה

חברת אנתרופיק (Anthropic), מובילה במחקר בטיחות AI, חשפה לאחרונה טכניקת "פריצת מגבלות" חדשה בשם "Many-shot Jailbreaking" המשפיעה על מודלי שפה גדולים (LLMs), כולל אלו שלה ושל מתחרותיה. הטכניקה מנצלת את ההרחבה המשמעותית של חלון הקשר במודלים אלו, ומאפשרת למשתמשים להכניס מספר רב של דיאלוגים מדומים בתוך פרומפט אחד כדי לגרום למודל להפיק תגובות מזיקות, תוך עקיפת מנגנוני ההגנה שלו. אנתרופיק בחרה לפרסם את המחקר כדי להאיץ את פיתוח פתרונות ולהעלות את המודעות לאתגרים הנגזרים מחלון הקשר הארוך. החברה מדגישה את הצורך לטפל בפגיעויות אלו כעת, לפני שמודלים עתידיים יהפכו למסוכנים אף יותר, וכבר מיישמת פתרונות מבוססי פרומפטים לצמצום הסיכון.

קרא עוד

אנתרופיק מרחיבה את תוכנית הבאג באונטי: מיקוד בפריצת מגבלות אוניברסליות ב-AI

Many-shot Jailbreaking: כשחלון הקשר הארוך הופך לפרצה מסוכנת במודלי שפה