אנתרופיק משיקה יוזמה לקידום הערכות צד שלישי למודלי AI

חברת אנתרופיק (Anthropic) מכריזה על יוזמה חדשנית שתשנה את הדרך שבה אנו מעריכים את יכולותיהם וסיכוניהם של מודלי בינה מלאכותית. החברה מדגישה כי מערך הערכות צד שלישי חזק ובלתי תלוי הוא הכרחי להבטחת AI אחראי, אך מודה שהנוף הקיים מוגבל וכי פיתוח הערכות איכותיות ורלוונטיות לבטיחות AI נותר מאתגר, כאשר הביקוש עולה משמעותית על ההיצע. כדי להתמודד עם פער זה, אנתרופיק משיקה כעת יוזמת מימון שמטרתה לתמוך בארגוני צד שלישי שיפתחו הערכות כאלו. ההשקעה בבדיקות אלה נועדה לשפר את תחום בטיחות ה-AI כולו, ולספק כלים שימושיים לכלל האקוסיסטם של ה-AI.

תחומי מיקוד עליונים ביוזמה

אנתרופיק מעוניינת במימון פיתוח הערכות בשלושה תחומי מפתח: הערכות רמת בטיחות AI (ASL) – כאלה המסייעות למדוד את רמות הבטיחות המוגדרות במדיניות הסקיילינג האחראי (Responsible Scaling Policy) של החברה, וכוללות התייחסות לסיכוני סייבר, סיכונים כימיים, ביולוגיים, רדיולוגיים וגרעיניים (CBRN), אוטונומיה של מודלים, סיכוני ביטחון לאומי אחרים וכן מניפולציה חברתית וסיכוני יישור (alignment); מדדי יכולות ובטיחות מתקדמים – להבנה מקיפה יותר של חוזקות המודלים והסיכונים הפוטנציאליים שלהם, בין היתר בתחום המדע המתקדם, מניעת מזיקות וסירובים, הערכות רב-לשוניות משופרות והשפעות חברתיות רחבות; וכן תשתיות, כלים ושיטות לפיתוח הערכות – במטרה לייעל את תהליך הפיתוח של הערכות איכותיות בכל קהילת ה-AI.

ארגונים וחוקרים בעלי הצעות בתחומים אלו מוזמנים להגיש בקשה באמצעות טופס היישום של אנתרופיק. הצוות של אנתרופיק יבחן את ההגשות באופן שוטף ויעקוב אחר הצעות נבחרות כדי לדון בצעדים הבאים, תוך מתן אפשרויות מימון מגוונות המותאמות לצרכי הפרויקט. מפתחי הערכות יקבלו הזדמנות לעבוד ישירות עם מומחי החברה מצוותי ה-Frontier Red Team, Finetuning, Trust & Safety ואחרים, כדי לעצב את ההערכות להשפעה מקסימלית. יוזמה זו נועדה לשמש כזרז להתקדמות לעבר עתיד שבו הערכת AI מקיפה היא סטנדרט תעשייתי.