אבטחת מודלי AI חזיתיים: אנתרופיק קוראת לחיזוק ההגנה מפני גניבה ושימוש לרעה

ככל שיכולותיהם של מודלי בינה מלאכותית חזיתיים ממשיכות לצמוח במהירות, הבטחת אבטחת המערכות הללו הפכה לסדר עדיפויות קריטי. חברת אנתרופיק (Anthropic), הידועה בגישתה הממוקדת לבטיחות AI, מזהירה כי מודלי AI מתקדמים עתידיים טומנים בחובם פוטנציאל לטלטל את הביטחון הכלכלי והלאומי בתוך מדינות וביניהן. לאור האופי האסטרטגי של טכנולוגיה זו, יש לאבטח את המחקר והמודלים החזיתיים ברמות העולות בהרבה על הפרקטיקות המקובלות בטכנולוגיות מסחריות אחרות, על מנת להגן עליהם מפני גניבה או שימוש לרעה.

אנתרופיק מדגישה כי בטווח הקרוב, על ממשלות ומעבדות AI חזיתיות להיות ערוכות להגן על מודלים מתקדמים, משקולות (weights) המודל והמחקר התומך בהם. זה צריך לכלול צעדים כמו פיתוח שיטות עבודה מומלצות חזקות שיופצו באופן נרחב בתעשייה, וכן התייחסות למגזר ה-AI המתקדם כמגזר הדומה ל"תשתית קריטית" מבחינת רמת שיתוף הפעולה הציבורי-פרטי הנדרש לאבטחת מודלים אלו והחברות המפתחות אותם.

שיטות עבודה מומלצות לאבטחת סייבר במודלי AI

אנו מאמינים כי "בקרת שני גורמים" (two-party control) חיונית לאבטחת מערכות AI מתקדמות. עיקרון זה, המשמש כבר במגוון תחומים (כמו פתיחת כספות מאובטחות במיוחד או תהליכי בקרת איכות בתעשיות), דורש ששני אנשים לפחות יאשרו פעולות קריטיות. תבנית זו צריכה להיות מיושמת בכל המערכות המעורבות בפיתוח, אימון, אירוח ופריסת מודלי AI חזיתיים. הדבר מתבטא בתכנון מערכת שבה לאף אדם אין גישה קבועה לסביבות קריטיות לייצור; במקום זאת, עליהם לבקש מעמית גישה מוגבלת בזמן, המלווה בהצדקה עסקית לבקשה. אפילו מעבדות AI מתפתחות, ללא משאבים ארגוניים גדולים, יכולות ליישם בקרות אלו. אנו מכנים זאת "אישור רב-צדדי לתשתית AI קריטית".

בנוסף, פרקטיקות פיתוח תוכנה מאובטחות צריכות לשרור בסביבת מודלי AI חזיתיים. תקני הזהב לכך הם מסגרת ה-NIST SSDF (Secure Software Development Framework) וה-SLSA (Supply Chain Levels for Software Artifacts). יישום תקנים קיימים אלו יכול לשדרג משמעותית את אבטחת מערכות ה-AI הללו, מכיוון שייצור ופריסת מודל דומים כמעט לחלוטין לבנייה ופריסה של תוכנה. SSDF ו-SLSA יחד מבטיחים "שרשרת משמורת" (chain of custody) לכל מערכת AI פרוסה, כלומר, מודל פרוס ניתן לשיוך לחברה שפיתחה אותו, מה שמסייע במתן מקוריות (provenance). אנו מכנים זאת "מסגרת פיתוח מודל מאובטחת". בטווח הקרוב, ניתן לקבוע את שתי השיטות המומלצות הללו כדרישות רכש (procurement requirements) שיחולו על חברות AI וספקיות ענן המתקשרות עם ממשלות. אנתרופיק עצמה מיישמת בקרות אלו ופרקטיקות אבטחת סייבר נוספות, ומצהירה כי עם הרחבת (scaling) יכולות המודל, היא תמשיך לשפר את ההגנות.

שיתוף פעולה בין המגזר הציבורי לפרטי

יש לראות את מעבדות המחקר של AI חזיתיים כמגזר הדורש שיתוף פעולה ציבורי-פרטי, בדומה לחברות במגזרי תשתית קריטיים כמו שירותים פיננסיים. הגדרה כזו יכולה לשמש ככלי לשיתוף פעולה מוגבר ולשיתוף מידע בין מעבדות התעשייה וסוכנויות ממשלתיות, ובכך לסייע לכל המעבדות להתגונן טוב יותר מפני גורמי סייבר עוינים בעלי משאבים רבים. למרות הפיתוי לדחוק את נושא האבטחה הצידה, טכנולוגיית ה-AI הופכת עוצמתית יותר ודורשת אמצעי זהירות משופרים. אנתרופיק מדגישה כי פיתוח הבינה המלאכותית טומן בחובו פוטנציאל מדהים לטובת האנושות, אך הוא גם כרוך בסיכונים אם לא מבוצע באופן אחראי. כחברת AI הפועלת בחזית הטכנולוגיה, אנו לוקחים ברצינות את אחריותנו לבנות ולפרוס את Claude באופן בטוח, מאובטח ומיושר (aligned) עם ערכים אנושיים.

אבטחת מודלי AI חזיתיים: אנתרופיק קוראת לחיזוק ההגנה מפני גניבה ושימוש לרעה

שיטות עבודה מומלצות לאבטחת סייבר במודלי AI

שיתוף פעולה בין המגזר הציבורי לפרטי

כתבות קשורות

ממשלת אוסטרליה ואנתרופיק חתמו על מזכר הבנות לבטיחות ומחקר ב-AI

אנתרופיק מזרימה 100 מיליון דולר ל-Claude Partner Network

אנתרופיק משיקה את 'המכון של אנתרופיק': חזית חדשה בבטיחות AI עוצמתי