מהו Red Teaming ומדוע הוא חיוני?

Red Teaming הוא כלי קריטי לשיפור הבטיחות והאבטחה של מערכות AI. מדובר בתהליך של בדיקה התקפית-יריבותית של מערכת טכנולוגית, שמטרתה לזהות פגיעויות פוטנציאליות. למרות חשיבותו, העדר פרקטיקות וסטנדרטים אחידים ל-Red Teaming של AI מסבך את המצב, ומקשה על השוואה אובייקטיבית של רמת הבטיחות בין מערכות AI שונות. לכן, אנתרופיק (Anthropic) פרסמה לאחרונה תובנות מגוון גישות Red Teaming שהיא נוקטת בהן כדי לבחון את מערכות ה-AI שלה, ומציעה מסגרת עבודה שתסייע לתעשייה כולה להתקדם לעבר סטנדרטיזציה.

הגישות השונות לבדיקות Red Teaming שבהן אנתרופיק משתמשת נעות בין Red Teaming ממוקד-מומחים, שבו אנשי מקצוע מומחים בתחומם (כמו בטיחות ילדים או ביטחון לאומי) מזהים סיכונים ספציפיים, לבין שימוש במודלי שפה גדולים (LLM) לביצוע Red Teaming אוטומטי. גישות אלו כוללות גם Red Teaming רב-מודאלי (Multimodal) עבור מודלים כמו Claude 3, המסוגלים לקלוט מידע חזותי, וכן Red Teaming מבוסס-קהילה (Crowdsourced), שבו משתתפים מגוונים – לעיתים ללא רקע טכני – בוחנים את המערכות לסיכונים כלליים ומגבלותיהן.

מסלול מ-Red Teaming ידני לסטנדרטים תעשייתיים

התהליך האבולוציוני של Red Teaming מתחיל בבדיקות אד-הוק (Ad-hoc) ואיכותניות על ידי מומחים, ומתפתח בהדרגה לכדי שיטות הערכה כמותיות ואוטומטיות. הרעיון הוא להפוך את תוצאות ה-Red Teaming לכלי ליצירת ערך מצטבר עבור הארגון: זיהוי סיכונים, יישום מנגנוני הגנה (guardrails), ובחינת יעילותם במחזוריות. תהליך זה מאפשר מעבר מבדיקות אנושיות ידניות לבדיקות אוטומטיות ויעילות יותר, המכסות מגוון רחב יותר של תרחישים.

לאור האתגרים הללו, אנתרופיק ממליצה למעצבי מדיניות לנקוט במספר צעדים: להשקיע בגופים כמו NIST לפיתוח סטנדרטים טכניים ל-Red Teaming, לתמוך בארגונים עצמאיים וללא מטרות רווח שיבצעו בדיקות צד שלישי עבור מפתחים, לעודד שוק לשירותי Red Teaming מקצועיים עם תהליכי הסמכה, ולקשור את פרקטיקות ה-Red Teaming של חברות AI למדיניות ברורה בנוגע לתנאים הנדרשים להמשך סקיילינג ופריסת מודלים חדשים. צעדים אלו יסייעו לבנות מערכות AI בטוחות ומועילות לחברה, ויבטיחו פיתוח בינה מלאכותית באופן אחראי ועם מנגנוני הגנה חזקים.