ANTHROPIC IL
ניוזלטרמדד כלכליטיפיםמחקרחדשותראשי
ANTHROPIC IL
תנאי שימושפרטיותצור קשר
כל הזכויות שמורות Anthropic IL © 2026

אתר קהילתי בלתי רשמי - אתר זה אינו קשור, מאושר או מופעל על ידי חברת Anthropic, PBC. התכנים מתורגמים באופן אוטומטי מ-anthropic.com ועשויים להכיל אי-דיוקים. כל הסימנים המסחריים הם רכוש בעליהם.

ראשי/מודל diffing

מודל diffing

1 כתבות בנושא זה

כלי 'diff' ל-AI: כך תזהו שינויים התנהגותיים חמקמקים במודלי בינה מלאכותית חדשים
13 במרץ 2026

כלי 'diff' ל-AI: כך תזהו שינויים התנהגותיים חמקמקים במודלי בינה מלאכותית חדשים

חברת אנתרופיק (Anthropic), המתמקדת במחקר ובבטיחות AI, פיתחה גישה חדשנית המכונה 'model diffing' – השוואת מודלים. בעוד שמדדי ביצועים מסורתיים מוגבלים בזיהוי 'לא-נודעים לא-נודעים', השיטה החדשה מאפשרת לאתר אוטומטית הבדלים התנהגותיים עדינים במודלים, גם כאלה בעלי ארכיטקטורות שונות לחלוטין. באמצעות כלי ייעודי בשם Dedicated Feature Crosscoder (DFC), החברה הצליחה לחשוף יכולות התנהגותיות ספציפיות במודלים שונים, כמו 'יישור למפלגה הקומוניסטית הסינית' או 'מנגנון סירוב זכויות יוצרים'. מחקר זה מהווה צעד חשוב באודיט חכם יותר של מערכות AI ובניתוב משאבי בטיחות לאזורים הקריטיים ביותר.

קרא עוד