מדדי ביצועים

4 כתבות בנושא זה

17 בדצמבר 2024

קלוד 3.5 סונט קובע רף חדש: מודל הסוכן של אנתרופיק כובש את SWE-bench Verified

המודל העדכני ביותר של אנתרופיק, Claude 3.5 Sonnet המשודרג, הגיע לציון מרשים של 49% במדד SWE-bench Verified, בכך שגבר על המודל המוביל הקודם. המאמר מתאר כיצד אנתרופיק יצרה סוכן ייעודי סביב המודל, תוך הענקת שליטה מקסימלית למודל ושימוש מינימלי בתשתית. המודל מפגין יכולות חשיבה, קידוד ומתמטיקה משופרות, לצד יכולת תיקון עצמי ובחינת פתרונות מגוונים. למרות האתגרים הכרוכים בהרצת מדד ביצועים מורכב זה, התוצאות מציגות פוטנציאל אדיר למפתחים שישתמשו ב-Claude 3.5 Sonnet לקידוד סוכני.

קרא עוד

19 בנובמבר 2024

מעבר למזל: אנתרופיק מציגה גישה סטטיסטית חדשנית להערכת מודלי AI

הערכה מדויקה של מודלי בינה מלאכותית (AI) היא קריטית, אך מחקרים רבים מתעלמים מהשפעת האקראיות וה"מזל" בתוצאות. מאמר מחקר חדש של אנתרופיק (Anthropic) מציג גישה סטטיסטית קפדנית שמטרתה להפוך את הערכות המודלים לאמינות ומדויקות יותר. המחקר מפרט חמש המלצות מרכזיות, הכוללות שימוש במשפט הגבול המרכזי, טיפול ב-standard errors מקובצים, הפחתת שונות בתוך שאלות, ניתוח הבדלים מזווגים ושימוש בניתוח עוצמה סטטיסטית. באמצעות עקרונות אלו, אנתרופיק שואפת לספק כלים לחוקרים כדי לזהות את היכולות האמיתיות של המודלים, מעבר לרעש הסטטיסטי, ולקדם מדע הערכה מוצק.

קרא עוד

4 במרץ 2024

אנתרופיק חושפת את הדור הבא: משפחת מודלי Claude 3 שוברת שיאים

חברת אנתרופיק (Anthropic) משיקה את משפחת מודלי Claude 3 החדשה, הכוללת את Claude 3 Haiku, Sonnet ו-Opus, ומציבה מדדי ביצועים חדשים בתעשיית ה-AI. המודלים החדשים מציעים איזון אופטימלי בין אינטליגנציה, מהירות ועלות, כאשר Opus הוא המודל החכם ביותר עם יכולות כמעט אנושיות במשימות מורכבות. משפחת Claude 3 מציגה שיפורים משמעותיים ביכולות חשיבה, הבנה רב-מודאלית (כולל חזון), דיוק מוגבר, הפחתת הזיות, חלון הקשר ארוך ויכולות שליפה כמעט מושלמות, תוך שמירה על עקרונות AI אחראי. המודלים Opus ו-Sonnet זמינים כעת לשימוש ב-API וב-claude.ai, ו-Haiku יושק בקרוב.

קרא עוד

9 באוגוסט 2023

אנתרופיק משיקה את Claude Instant 1.2: מודל AI מהיר ומשתלם עם שיפורים משמעותיים

אנתרופיק (Anthropic) משיקה את Claude Instant 1.2, גרסה משופרת למודל השפה הגדול המהיר והחסכוני שלה. העדכון מביא עימו שיפורים ניכרים בתחומי מתמטיקה, קידוד וחשיבה, לצד התקדמות בבטיחות המודל עם פחות הזיות ועמידות גבוהה יותר לפריצות מגבלות. המודל החדש זמין כעת למפתחים דרך ה-API, ומבטיח ביצועים טובים יותר במגוון רחב של משימות עסקיות.

קרא עוד