Red Teaming

11 כתבות בנושא זה

24 בנובמבר 2025

אנתרופיק חושפת שיפורים משמעותיים בהגנה מפני הזרקות פרומפטים בשימוש בדפדפן

אנתרופיק, חברת מחקר ובטיחות AI מובילה, מציגה את מודל Claude Opus 4.5, המציע עמידות משופרת באופן משמעותי בפני התקפות הזרקת פרומפטים. שיפורים אלו קריטיים במיוחד עבור סוכני AI הפועלים בסביבת דפדפן, שם הם חשופים לסיכונים רבים של הוראות זדוניות. למרות ההתקדמות המרשימה, החברה מדגישה כי האתגר טרם נפתר במלואו, אך הוביל להרחבת זמינות תוסף Claude for Chrome לשלב הבטא עבור כלל מנויי ה-Max.

קרא עוד

12 בספטמבר 2025

אנתרופיק משתפת פעולה עם גופי ממשל לחיזוק בטיחות ה-AI שלה

אנתרופיק (Anthropic), חברת מחקר ובטיחות מובילה בתחום ה-AI, הרחיבה את שיתוף הפעולה שלה עם המרכז האמריקאי לחדשנות ותקני AI (CAISI) ומכון אבטחת ה-AI הבריטי (AISI). שותפות זו העניקה לצוותי ה-Red Teaming הממשלתיים גישה למערכות המודל של אנתרופיק בשלבי פיתוח שונים, מה שאפשר בדיקות מעמיקות ומתמשכות. הבדיקות חשפו פרצות קריטיות במנגנוני ההגנה של Claude, כולל התקפות Prompt Injection ופריצות מגבלות (jailbreaks) אוניברסליות. הממצאים הובילו לחיזוק משמעותי של ה-Constitutional Classifiers וארכיטקטורת ההגנה של המודלים, תוך הדגשה של חשיבות הגישה המקיפה למודלים ובדיקות איטרטיביות לשמירה על בטיחות ויציבות המערכות.

קרא עוד

19 במרץ 2025

אנתרופיק: מודלי AI חזיתיים מראים התקדמות מהירה בתחומי ביטחון לאומי

חברת אנתרופיק (Anthropic) מפרסמת דוח Red Teaming חדש, המפרט את התקדמותם המהירה של מודלי AI חזיתיים ביכולות דו-שימושיות, בעיקר בתחומי הסייבר והביולוגיה. לפי הדוח, מודלי AI, ובפרט קלוד (Claude), מתקרבים לרמת מומחיות של סטודנטים לתואר ראשון ואף עולים על מומחים באזורים ספציפיים. למרות סימני האזהרה המוקדמים, אנתרופיק מעריכה כי המודלים הנוכחיים עדיין אינם מהווים סיכון מוגבר משמעותית לביטחון הלאומי. החברה מדגישה את חשיבות שיתוף הפעולה עם גופים ממשלתיים, כולל מכוני בטיחות ה-AI בארה"ב ובבריטניה, כדי להבטיח פיתוח אחראי ובטוח של טכנולוגיות AI מתקדמות.

קרא עוד

25 בפברואר 2025

אנתרופיק חושפת שיטה חדשנית לחיזוי התנהגויות AI נדירות ומסוכנות

חברת אנתרופיק (Anthropic) פרסמה מחקר חדש שמציג שיטה לחיזוי התנהגויות AI נדירות ולא רצויות במודלי שפה גדולים (LLM). הבעיה העיקרית במדדי ביצועים (benchmarks) קיימים היא חוסר היכולת לזהות סיכונים נדירים מאוד בסקאלה של מיליארדי שאילתות בעולם האמיתי. המחקר מראה כיצד ניתן להשתמש בחוקי חזקה (power laws) כדי להרחיב את החיזוי מכמה אלפי שאילתות למיליוני שאילתות, ובכך לאפשר זיהוי מוקדם של סיכונים קטסטרופליים לפני פריסה. השיטה הוכיחה את יעילותה בחיזוי מידע מסוכן, פעולות סוכניות (agentic) לא מיושרות וייעול Red Teaming, והיא מהווה צעד משמעותי לקראת בטיחות AI משופרת.

קרא עוד

8 באוקטובר 2024

אנתרופיק נלחמת בזיופים ומידע כוזב: כך נערכת Claude לבחירות בארה"ב

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ה-AI, מפרסמת את צעדיה לקראת הבחירות בארצות הברית בנובמבר 2024. על רקע הזמינות הנרחבת של כלי AI גנרטיביים, החברה מציגה עדכוני מדיניות האוסרים על שימוש במוצריה לקמפיינים פוליטיים, לובינג וייצור מידע כוזב. בין היתר, קלוד (Claude) מוגבל לייצור טקסט בלבד כדי למנוע יצירת דיפ-פייקים (deepfakes) בנושאים אלקטורליים. אנתרופיק גם פיתחה כלים מתקדמים לזיהוי שימוש לרעה, מבצעת Red Teaming ובדיקות פגיעות מדיניות (Policy Vulnerability Testing) כדי לבחון ולחזק את מנגנוני ההגנה, ומפנה משתמשים למקורות מידע מהימנים בנוגע להצבעה. המהלכים נועדו להבטיח את טוהר ההליך הדמוקרטי ולמנוע את ניצול ה-AI להפצת דיסאינפורמציה.

קרא עוד

12 ביוני 2024

האתגרים ב-Red Teaming של AI: אנתרופיק חושפת את התהליך

חברת אנתרופיק (Anthropic) חושפת תובנות מגוון גישות Red Teaming המשמשות אותה לבחינת מערכות ה-AI שלה, ומדגישה את חשיבותן לשיפור הבטיחות והאבטחה. הכתבה מצביעה על היעדר סטנדרטים אחידים בתחום כאתגר מרכזי, ועל הצורך בפרקטיקות מבוססות ל-Red Teaming שיטתי. אנתרופיק סוקרת שיטות שונות, החל מ-Red Teaming ממוקד-מומחים ועד שימוש במודלי שפה גדולים וגישות רב-מודאליות, תוך הדגשה של המעבר מבדיקות איכותניות לכמותיות ואוטומטיות. לבסוף, היא מציגה המלצות למעצבי מדיניות כיצד לבסס אקוסיסטם חזק של בדיקות AI.

קרא עוד

20 במאי 2024

מדיניות הסקיילינג האחראי של אנתרופיק: שיעורים ראשונים מהשטח

אנתרופיק (Anthropic) פרסמה לפני שנה את מדיניות הסקיילינג האחראי (RSP) שלה, שנועדה לספק קווים מנחים מעשיים לבטיחות וניהול סיכונים במודלי חזית. כעת, החברה משתפת תובנות מהטמעת המדיניות, המדגישות את חשיבותה כמסגרת עבודה מובנית, אך גם את האתגרים באיזון בין התחייבויות מחמירות להתפתחות מהירה של הטכנולוגיה. המדיניות כוללת חמש התחייבויות ליבה, המתמקדות בזיהוי, בדיקה ותגובה ליכולות מסוכנות, לצד פיתוח תקני אבטחה מחמירים (ASL-3) והקמת מנגנוני בקרה פנימיים וחיצוניים.

קרא עוד

19 בספטמבר 2023

המורכבות שמאחורי הקלעים: למה כל כך קשה להעריך מערכות AI?

חברת אנתרופיק (Anthropic), מובילה בתחום בטיחות ובינה מלאכותית, חושפת את האתגרים המשמעותיים שבהערכת מודלי AI, ממדדי ביצועים סטנדרטיים ועד בדיקות אבטחה מורכבות. הכתבה מפרטת קשיים כמו זיהום נתונים במבחני בחירה מרובה, הטיה במבחני הטיה חברתית, מורכבות פריסת כלי הערכה מצד שלישי ובעיות עקביות. היא מתארת גם אתגרים בהערכות אנושיות, Red Teaming לאיומים ביטחוניים, ואף את המגבלות של הערכות שנוצרו על ידי מודלים עצמם. המאמר מסתיים בהמלצות מדיניות קונקרטיות לקידום מדע הערכת ה-AI.

קרא עוד

20 באפריל 2023

אנתרופיק קוראת לרגולציה: מפת דרכים לאחריות מודלי AI מתקדמים

חברת המחקר והבטיחות בתחום ה-AI, אנתרופיק (Anthropic), הגישה לאחרונה מסמך המלצות מפורט לממשל האמריקאי, המתווה דרכים להבטחת אחריות ופיקוח על מערכות בינה מלאכותית מתקדמות. המסמך קורא להקמת תשתית ופרוטוקולים אחידים להערכה, ניהול סיכונים ופריסה בטוחה של מודלי AI, תוך שיתוף פעולה בין גורמי ממשל, חברות טכנולוגיה וחוקרים. המטרה היא לגשר על הפער הקיים כיום בהערכה מקיפה של מערכות AI, ולהבטיח שהשפעותיהן העתידיות יהיו חיוביות ובטוחות.

קרא עוד

22 באוגוסט 2022

אנתרופיק חושפת: Red Teaming נגד איומי חזית לבטיחות AI

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI מובילה, מפרסמת ממצאים מדאיגים ממחקר Red Teaming מקיף שביצעה על מודלי חזית (frontier models). המחקר, שהתמקד באיומי אבטחה לאומית כמו סיכונים ביולוגיים ואבטחת סייבר, חשף כי מודלי שפה גדולים (LLM) עלולים להוות איום ביטחוני משמעותי בעתיד הקרוב אם לא יופעלו מנגנוני הגנה (mitigations) מתאימים. למרות הסכנות הפוטנציאליות, אנתרופיק מדגישה כי ניתן לפתח ולפרוס מנגנוני הגנה יעילים כדי להפחית את הסיכונים הללו באופן ניכר. החברה קוראת לשיתוף פעולה ממשלתי ותעשייתי דחוף כדי להרחיב את מאמצי ה-Red Teaming ולבנות AI בטוח ואחראי.

קרא עוד

22 באוגוסט 2022

Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה

חברת אנתרופיק, המובילה במחקר ופיתוח AI אחראי, פרסמה לאחרונה מחקר מעמיק אודות מאמציה לבצע Red Teaming למודלי שפה גדולים (LLM) במטרה לזהות, למדוד ולהפחית פלטים מזיקים פוטנציאליים. המחקר בחן את התנהגויות הסקיילינג של Red Teaming על פני מודלים בגדלים שונים ובארבעה סוגי מודלים, ומצא שמודלים שאומנו ב-RLHF הופכים קשים יותר ל-Red Team ככל שהם גדלים. אנתרופיק אף שחררה מערך נתונים של אלפי מתקפות Red Team, המציגות מגוון רחב של פלטים מזיקים, משפה פוגענית ועד להתנהגויות לא אתיות עדינות יותר. שקיפות זו נועדה להאיץ את שיתוף הפעולה הקהילתי בפיתוח נורמות וסטנדרטים טכניים לבטיחות AI.

קרא עוד