
קלוד 3.5 סונט קובע רף חדש: מודל הסוכן של אנתרופיק כובש את SWE-bench Verified
המודל העדכני ביותר של אנתרופיק, Claude 3.5 Sonnet המשודרג, הגיע לציון מרשים של 49% במדד SWE-bench Verified, בכך שגבר על המודל המוביל הקודם. המאמר מתאר כיצד אנתרופיק יצרה סוכן ייעודי סביב המודל, תוך הענקת שליטה מקסימלית למודל ושימוש מינימלי בתשתית. המודל מפגין יכולות חשיבה, קידוד ומתמטיקה משופרות, לצד יכולת תיקון עצמי ובחינת פתרונות מגוונים. למרות האתגרים הכרוכים בהרצת מדד ביצועים מורכב זה, התוצאות מציגות פוטנציאל אדיר למפתחים שישתמשו ב-Claude 3.5 Sonnet לקידוד סוכני.
קרא עוד

