אנתרופיק, מפתחת מודל השפה הגדול Claude, הודיעה על הרחבת תוכנית הבאג באונטי (bug bounty) שלה. המהלך מגיע כחלק ממאמציה המתמשכים לחזק את בטיחות מודלי ה-AI שלה, תוך התמודדות עם קצב ההתקדמות המהיר של יכולות הבינה המלאכותית, המחייב התקדמות מקבילה ומהירה בפרוטוקולי הבטיחות. היוזמה החדשה תתמקד באיתור ליקויים במנגנוני ההגנה מהדור הבא של אנתרופיק, טרם פריסתם הציבורית.

תוכניות באג באונטי ממלאות תפקיד קריטי בחיזוק האבטחה והבטיחות של מערכות טכנולוגיות. היוזמה החדשה של אנתרופיק מתמקדת בזיהוי ובבלימה של מתקפות פריצת מגבלות אוניברסליות (universal jailbreak attacks) — כלומר, ניצולים שעלולים לאפשר עקיפה עקבית של מנגנוני ההגנה לבטיחות AI במגוון רחב של תחומים. על ידי מיקוד בפריצות מגבלות אוניברסליות, החברה שואפת לטפל בחלק מהפרצות המשמעותיות ביותר בתחומי סיכון גבוה וקריטיים, כמו CBRN (כימי, ביולוגי, רדיולוגי וגרעיני) ואבטחת סייבר. באנתרופיק מצפים לעבוד עם קהילת חוקרי האבטחה והבטיחות העולמית במאמץ זה.

במסגרת התוכנית, שמתחילה במתכונת הזמנה בלבד בשיתוף HackerOne, יינתן למשתתפים גישה מוקדמת לבדיקת מערכת מנגנוני ההגנה החדשה ביותר של אנתרופיק, לפני פריסתה הציבורית. המשתתפים יאתגרו לאתר פרצות פוטנציאליות או דרכים לעקוף את אמצעי הבטיחות בסביבה מבוקרת. אנתרופיק מציעה תגמולים של עד 15,000 דולר עבור מתקפות פריצת מגבלות אוניברסליות וחדשניות, שעלולות לחשוף חולשות בתחומי סיכון גבוה וקריטיים. פריצת מגבלות בהקשר של AI מתייחסת לשיטה המשמשת לעקיפת אמצעי הבטיחות וההנחיות האתיות המובנים במערכת AI, המאפשרת למשתמש להפיק תגובות או התנהגויות מה-AI שבדרך כלל היו מוגבלות או אסורות. פריצת מגבלות אוניברסלית היא סוג של פגיעות במערכות AI המאפשרת למשתמש לעקוף באופן עקבי את אמצעי הבטיחות במגוון רחב של נושאים.

אנתרופיק מעודדת חוקרי אבטחת AI מנוסים או בעלי מומחיות מוכחת בזיהוי פריצות מגבלות במודלי שפה להגיש מועמדות להזמנה לתוכנית באמצעות טופס הבקשה עד יום שישי, ה-16 באוגוסט. המהלך מתיישר עם ההתחייבויות עליהן חתמה אנתרופיק יחד עם חברות AI אחרות לפיתוח AI אחראי, כגון ההתחייבויות הוולונטריות ל-AI שפורסמו על ידי הבית הלבן וקוד ההתנהגות לארגונים המפתחים מערכות AI מתקדמות שפותח באמצעות תהליך G7 הירושימה. מטרת החברה היא להאיץ את ההתקדמות בבלימת מתקפות פריצת מגבלות אוניברסליות ולחזק את בטיחות ה-AI בתחומי סיכון גבוה, תוך הבטחה שככל שיכולות ה-AI יתקדמו, גם אמצעי הבטיחות יתפתחו בהתאמה.