פרצות אבטחה - כתבות

12 בספטמבר 2025

אנתרופיק משתפת פעולה עם גופי ממשל לחיזוק בטיחות ה-AI שלה

אנתרופיק (Anthropic), חברת מחקר ובטיחות מובילה בתחום ה-AI, הרחיבה את שיתוף הפעולה שלה עם המרכז האמריקאי לחדשנות ותקני AI (CAISI) ומכון אבטחת ה-AI הבריטי (AISI). שותפות זו העניקה לצוותי ה-Red Teaming הממשלתיים גישה למערכות המודל של אנתרופיק בשלבי פיתוח שונים, מה שאפשר בדיקות מעמיקות ומתמשכות. הבדיקות חשפו פרצות קריטיות במנגנוני ההגנה של Claude, כולל התקפות Prompt Injection ופריצות מגבלות (jailbreaks) אוניברסליות. הממצאים הובילו לחיזוק משמעותי של ה-Constitutional Classifiers וארכיטקטורת ההגנה של המודלים, תוך הדגשה של חשיבות הגישה המקיפה למודלים ובדיקות איטרטיביות לשמירה על בטיחות ויציבות המערכות.

קרא עוד