
16 ביוני 2025
SHADE-Arena: הערכת חבלה וניטור בסוכני LLM
אנתרופיק (Anthropic) הציגה מערך הערכה חדש בשם SHADE-Arena, שנועד לבחון את יכולות החבלה והניטור של סוכני LLM מתקדמים. המחקר מדמה סביבות וירטואליות בהן מודלי AI מתבקשים לבצע משימות תמימות לצד משימות חבלה סמויות, ומודל ניטור AI אחר מנסה לזהות אותן. המטרה היא להבין עד כמה סוכני AI עתידיים יכולים לבצע חבלה מורכבת מבלי להיתפס, ובמקביל, לשפר את מנגנוני הניטור לפני פריסתם של מודלים כאלה בסביבות אמיתיות. הממצאים מצביעים על כך שמודלים עכשוויים עדיין מתקשים בחבלה מורכבת, אך גם שמנגנוני הניטור אינם מספקים באופן מלא.
קרא עוד