אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מפרסמת ממצאים מדאיגים ממחקר Red Teaming מקיף שביצעה על מודלי חזית (frontier models). המחקר, שהתמקד באיומי אבטחה לאומית כמו סיכונים ביולוגיים ואבטחת סייבר, חשף כי מודלי שפה גדולים (LLM) עלולים להוות איום ביטחוני משמעותי בעתיד הקרוב אם לא יופעלו מנגנוני הגנה (mitigations) מתאימים. דריו אמודאי (Dario Amodei), מנכ"ל אנתרופיק, הדגיש את חשיבות הנושא בעדותו בסנאט, והחברה הצטרפה למחויבויות בבית הלבן לבצע בדיקות אבטחה מקיפות למערכות AI.
Red Teaming לאיומי חזית: המתודולוגיה והממצאים
Red Teaming לאיומי חזית הוא תהליך הדורש השקעה ניכרת של זמן ומומחיות כדי לחשוף יכולות מודל נסתרות. אנתרופיק עבדה עם מומחי תחום בעלי עשרות שנות ניסיון כדי להגדיר מודלי איום – אילו סוגי מידע מסוכנים, כיצד הם משולבים ליצירת נזק ומה רמת הדיוק הנדרשת. התהליך כולל עבודה צמודה של מומחי LLM ותוכן (מעל 100 שעות) עם המודלים, כולל למידת טכניקות כמו "פריצת מגבלות" (jailbreak), כדי לחשוף את יכולותיהם האמיתיות. יעד מרכזי הוא בניית הערכות אוטומטיות וכלים שיאפשרו חזרה על הבדיקות בהיקפים גדולים, תוך שמירה על אבטחת מידע קפדנית בשל הרגישות הגבוהה של הנתונים.
בפרויקט ספציפי בתחום הביולוגיה, אנתרופיק הקדישה למעלה מ-150 שעות עם מומחי אבטחה ביולוגית (Biosecurity) מובילים. הממצאים מצביעים על כך שמודלי חזית יכולים לעיתים לייצר ידע מתוחכם, מדויק ומפורט ברמה מקצועית, ואף לתכנן ורכוש נשק ביולוגי. יכולות אלו גדלות ככל שהמודלים גדולים יותר, וצפויות להתקדם עוד יותר עם גישה לכלים חיצוניים. אנתרופיק מזהירה כי מודלי LLM ללא מנגנוני הגנה עלולים להאיץ את מאמציהם של גורמים זדוניים ולהתממש כסיכונים לטווח הקרוב – בשנתיים-שלוש הקרובות. יחד עם זאת, המחקר איפשר לגלות וליישם מנגנוני הגנה יעילים, כמו שינויים בתהליכי האימון (ראו, לדוגמה, את עבודתם על Constitutional AI) ומסננים מבוססי סיווג (classifiers) המוטמעים כעת במודל Claude הציבורי.
קריאה לשיתוף פעולה גלובלי למען בטיחות AI
אנתרופיק מתכננת להמשיך ולחקור את המהירות שבה LLM יכולים לתרום לייצור נזק, בהשוואה למנועי חיפוש, ולא רק במודלי החזית הנוכחיים אלא גם בדורות הבאים – מודלים עושי שימוש בכלים ומודלים רב-מודאליים. החברה קוראת למפתחי מודלי חזית לפעול בדחיפות לנתח ולפתח מנגנוני הגנה חזקים יותר, ולשתף מידע זה עם מפתחי תעשייה וסוכנויות ממשלתיות. יש גם להיערך לשחרור אפשרי של מודלים שלא עברו Red Teaming, מחשש שגורמים זדוניים ינצלו מודלי בסיס זמינים כדי לחלץ יכולות מזיקות.
עבודת ה-Red Teaming לאיומי חזית בתחומי האבטחה הלאומית היא קריטית ובעיתוי הנכון, שכן אנו נמצאים בחלון הזמן להעריך ולהפחית סיכונים מתהווים לפני שהם הופכים לחריפים. אנתרופיק מדגישה את החשיבות של הגברת המאמצים לפני שדור חדש של מודלים משולבי כלים ייצא לשוק. היא קוראת לשיתוף פעולה בין ממשלות, מעבדות ובעלי עניין אחרים, ופועלת להקמת תהליך חשיפה מוסדר לדיווח על סיכונים ומנגנוני הגנה. כמו כן, מתוכננת הקמת גופים צד שלישי בלתי תלויים שיבצעו הערכות אבטחה לאומית ויטפלו במידע רגיש.
אנתרופיק מרחיבה את צוות המחקר שלה ל-Red Teaming לאיומי חזית (פרטים נוספים כאן), במטרה להתנסות ביכולות עתידיות, להבין סיכונים מתקרבים ולבנות הערכות ומנגנוני הגנה ניתנים להרחבה (סקיילינג). בנוסף, החברה מעדכנת גורמי ממשל ומעבדות בפרטי הממצאים ופתוחה לשיתוף פעולה עם קבוצות נוספות, במיוחד מעבדות או ארגוני הערכה חיצוניים, כדי להרחיב את העבודה הקריטית הזו למען בטיחות AI לטווח הארוך.



