אסטרטגיה חדשה לניהול סיכוני AI: הכירו את ה-RSP של אנתרופיק

חברת אנתרופיק (Anthropic), מחברות חזית ה-AI, פרסמה היום את מדיניות הסקיילינג האחראי (RSP) שלה. מדובר בסדרה של פרוטוקולים טכניים וארגוניים שנועדו לנהל את הסיכונים הנלווים לפיתוח מערכות AI בעלות יכולות הולכות וגדלות. באנתרופיק סבורים כי בעוד שמודלי AI מציעים ערך כלכלי וחברתי אדיר, הם גם מציבים סיכונים קטסטרופליים – כמו שימוש מכוון לרעה על ידי גורמי טרור או מדינות לפיתוח נשק ביולוגי, או פעולה אוטונומית של המודל באופן שסותר את כוונת מפתחיו.

ה-RSP מגדיר מסגרת חדשה בשם רמות בטיחות AI (ASL – AI Safety Levels), המעוצבת באופן רופף על פי תקני רמות הבטיחות הביולוגית (BSL) הקיימים בארה"ב. הרעיון המרכזי הוא לדרוש תקני בטיחות, אבטחה ותפעול שיתאימו לפוטנציאל הסיכון הקטסטרופלי של מודל, כאשר רמות ASL גבוהות יותר ידרשו הדגמות בטיחות מחמירות יותר. לדוגמה, מודלי שפה גדולים (LLM) עכשוויים, כולל קלוד (Claude), מסווגים כ-ASL-2, מה שמעיד על סימנים מוקדמים ליכולות מסוכנות אך כאלה שאינן מהוות עדיין איום קטסטרופלי ממשי. רמות ASL-3 ומעלה שמורות למערכות שמגדילות משמעותית את הסיכון לשימוש לרעה קטסטרופלי, או שמציגות יכולות אוטונומיות ברמה נמוכה.

איזון בין חדשנות לבטיחות ותמריצים לתעשייה

מערכת ה-ASL תוכננה לאזן בין התמודדות יעילה עם סיכונים קטסטרופליים לבין תמרוץ יישומים מועילים והתקדמות בבטיחות. היא מחייבת הפסקה זמנית של אימון מודלים חזקים יותר אם קצב הסקיילינג (scaling) של ה-AI יעלה על היכולת לעמוד בנוהלי הבטיחות הנדרשים. יחד עם זאת, היא מתמרצת ישירות פתרון בעיות בטיחות כתנאי הכרחי להרחבה (scaling) עתידית, ואף מאפשרת שימוש במודלים החזקים מהרמה הקודמת ככלי לפיתוח תכונות בטיחות לרמה הבאה. אנתרופיק מקווה שאימוץ תקן זה בקרב מעבדות החזית (frontier labs) ייצור דינמיקת "מרוץ לצמרת" שתתעל תמריצים תחרותיים לפתרון בעיות בטיחות.

מבחינה עסקית, אנתרופיק מבהירה כי מדיניות ה-RSP לא תשנה את השימושים הנוכחיים של קלוד ולא תשבש את זמינות המוצרים שלהם. יש לראות בה אנלוגיה לבדיקות טרום-שוק ועיצוב תכונות בטיחות בתעשיית הרכב או התעופה, שבהן המטרה היא להדגים באופן קפדני את בטיחות המוצר לפני השקתו לשוק, מה שמיטיב בסופו של דבר עם הלקוחות. המדיניות אושרה רשמית על ידי הדירקטוריון של אנתרופיק, אך החברה מדגישה כי מדובר בהערכה עדכנית ואיטרציה ראשונית שתתפתח בעתיד, שכן הקצב המהיר והאי-ודאויות הרבות בתחום ה-AI מחייבים איטרציות מהירות ותיקוני מסלול תכופים.