טכנולוגיה גרעינית היא בעלת טבע דו-שימושי מובהק: העקרונות הפיזיקליים המניעים כורים גרעיניים עלולים להיות מנוצלים לרעה לפיתוח נשק. ככל שמודלי בינה מלאכותית (AI) הופכים ליותר ויותר מתקדמים, קיים צורך קריטי לפקח על הפוטנציאל שלהם לספק ידע טכני מסוכן שעלול לאיים על הביטחון הלאומי. מידע גרעיני רגיש במיוחד, ולכן הערכת הסיכונים הללו מאתגרת עבור חברה פרטית הפועלת לבדה. מסיבה זו, בחודש אפריל האחרון, אנתרופיק חברה למנהל הביטחון הגרעיני הלאומי של ארה"ב (NNSA) ומעבדות לאומיות של משרד האנרגיה האמריקאי (DOE), במטרה להעריך את מודלי ה-AI שלהם לסיכוני הפצת נשק גרעיני.

כעת, אנתרופיק והשותפים מרחיבים את פעילותם מעבר להערכת סיכונים בלבד, ופיתחו במשותף סווגן מבוסס AI – מערכת הממיינת תוכן אוטומטית – המסוגל להבחין בין שיחות תמימות למטרידות הקשורות לגרעין. בבדיקות ראשוניות, הסווגן הציג דיוק של 96% בזיהוי שיחות אלה. המערכת כבר נפרסה בתעבורת המשתמשים של Claude כחלק ממערך רחב יותר לזיהוי שימוש לרעה במודלי החברה, ונתוני הפריסה המוקדמים מצביעים על יעילותו בשיחות אמיתיות.

אנתרופיק מתכננת לשתף את הגישה שפיתחה עם ה-Frontier Model Forum, גוף המאגד חברות AI מובילות. המטרה היא ששיתוף פעולה פורץ דרך זה ישמש מודל (Blueprint) עבור מפתחי AI אחרים, שיאפשר להם להטמיע מנגנוני הגנה דומים בשיתוף עם ה-NNSA.

מעבר לחשיבות המיידית באבטחת מודלי AI חזיתיים מפני שימוש לרעה הקשור לגרעין, מאמץ ראשון מסוגו זה מדגים את הכוח העצום של שיתופי פעולה ציבוריים-פרטיים. שותפויות אלו משלבות את היתרונות המשלימים של התעשייה והממשלה כדי להתמודד עם סיכונים חמורים באופן ישיר, ובכך תורמות להפיכת מודלי ה-AI לאמינים ובטוחים יותר עבור כלל המשתמשים.

לפרטים נוספים על השותפות עם ה-NNSA ופיתוח מנגנוני ההגנה, ניתן לעיין בבלוג red.anthropic.com של אנתרופיק, המהווה את הפלטפורמה למחקרי צוות ה-Red Teaming של החברה. לחצו כאן לקריאה מורחבת.