
12 באוגוסט 2025
אנתרופיק חושפת: כך נבנים מנגנוני ההגנה של Claude
אנתרופיק (Anthropic), חברת מחקר ובטיחות ה-AI, חשפה את הגישה הרב-שכבתית שלה לבניית מנגנוני הגנה למודלי ה-AI שלה, ובפרט למודל השפה הגדול Claude. החברה מפרטת על האופן שבו צוות ה-Safeguards שלה פועל לפיתוח מדיניות שימוש, אימון מודלים, בדיקות ביצועים בזמן אמת וניטור מתמשך, במטרה להבטיח ש-Claude יהיה מועיל ובטוח. המטרה היא למנוע שימוש לרעה ולתעל את יכולות המודל לתוצאות חיוביות, תוך שמירה על עקרונות של AI אחראי.
קרא עוד