אנתרופיק בוחנת את הגנות הבטיחות של ה-AI שלה עם תוכנית Bug Bounty חדשה

אנתרופיק (Anthropic) משיקה היום תוכנית Bug Bounty חדשה בשיתוף HackerOne, שנועדה לבחון לעומק את מנגנוני הבטיחות המתקדמים שלה. בדומה ליוזמה קודמת שהוכרזה בקיץ שעבר, החברה מאתגרת חוקרים למצוא פריצות מגבלות אוניברסליות במערכות סיווג בטיחותיות שטרם נפרסו באופן ציבורי. מנגנוני הגנה אלו הם חלק מההגנות שאנתרופיק פיתחה כדי לעמוד בתקן AI Safety Level-3 (ASL-3) Deployment Standard, כחלק ממדיניות ה-Responsible Scaling שלה – המסגרת שמנחה את החברה בפיתוח ובפריסה בטוחה של מודלי AI בעלי יכולות הולכות וגדלות. התוכנית תתמקד בבחינת גרסה מעודכנת של מערכת ה-Constitutional Classifiers, טכניקה שנועדה להגן מפני פריצות מגבלות העלולות לסייע בהפקת מידע הקשור לנשק כימי, ביולוגי, רדיולוגי וגרעיני (CBRN), תוך התבססות על רשימת עקרונות המגדירים תוכן מותר ואסור בעת אינטראקציה עם Claude.

המשתתפים בתוכנית יקבלו גישה מוקדמת לבחינת מערכות הסיווג של אנתרופיק על מודל Claude 3.7 Sonnet. פרסים כספיים בסך עד 25,000 דולר יוצעו עבור פריצות מגבלות אוניברסליות מאומתות שיימצאו במערכת שטרם שוחררה, בדגש על פגיעות שניתן לנצלן לשימוש לרעה בנושאים הקשורים ל-CBRN. אנתרופיק מציינת כי המודלים שלה הופכים ליותר ויותר בעלי יכולות, ומודלים עתידיים מסוימים עשויים לדרוש את הגנות הבטיחות והאבטחה המתקדמות ברמת ASL-3. יוזמת ה-Bug Bounty הנוכחית תורמת למאמצים שנעשו בחודשים האחרונים לחידוד ובחינה לעומק של מנגנוני הגנה אלו.

יוזמת ה-Bug Bounty יצאה לדרך עם השתתפות של חוקרים שלקחו חלק בתוכנית הקודמת בשנה שעברה, והיא מציעה הזדמנות לחוקרים חדשים להצטרף. אם אתם Red Teamer מנוסים או בעלי מומחיות מוכחת בזיהוי פריצות מגבלות במודלי שפה, אתם מוזמנים להגיש בקשה להזמנה דרך טופס הבקשה הייעודי. התוכנית מתנהלת על בסיס הזמנה בלבד ותפעל עד יום ראשון, 18 במאי, במטרה לאפשר מתן משוב מהיר לפניות. אנתרופיק מודה לקהילת האבטחה על שיתוף הפעולה בקידום בטיחותן של מערכות ה-AI.

עדכון מיום 22 במאי 2025

תוכנית ה-Bug Bounty המתוארת בפוסט זה הסתיימה. המשתתפים יעברו ליוזמת Bug Bounty חדשה שאנו משיקים היום, המתמקדת בבחינה לעומק של מערכת ה-Constitutional Classifiers שלנו על מודל Claude Opus 4 החדש, ובבדיקת מערכות בטיחות נוספות שאנו עשויים לפתח. אנו עדיין מקבלים בקשות להשתתפות בתוכנית חדשה זו, המתנהלת על בסיס הזמנה בלבד. ניתן להגיש בקשה להזמנה דרך טופס הבקשה הייעודי שלנו.

כדי לקדם עוד יותר את בטיחות ה-AI, אנו מקבלים כעת גם דיווחים על פריצות מגבלות אוניברסליות הנוגעות לשימושי ASL-3 מדאיגים (כלומר, כאלה המעלים מידע הקשור לאיומים ביולוגיים) שנמצאו בפלטפורמות או בפורומים ציבוריים, כגון מדיה חברתית. למידע נוסף, ראו כאן.