אנתרופיק חושפת את הדור הבא: Claude Opus 4 ו-Sonnet 4
אנתרופיק (Anthropic) השיקה היום את הדור הבא של מודלי ה-LLM שלה, וחושפת את Claude Opus 4 ו-Claude Sonnet 4. מודלי החזית החדשים מוגדרים ככאלו המציבים סטנדרטים חדשים בתחומי הקידוד, חשיבה מתקדמת ויכולות סוכני AI. Claude Opus 4, מוביל כמודל הקידוד הטוב בעולם, מצטיין בביצועים יציבים במשימות מורכבות וארוכות טווח ובתהליכי עבודה של סוכני AI. Claude Sonnet 4 מהווה שדרוג משמעותי ל-Claude Sonnet 3.7, ומספק יכולות קידוד וחשיבה עדיפות תוך תגובה מדויקת יותר להוראות.
יכולות חדשות ושיפורים משמעותיים
לצד שחרור המודלים, אנתרופיק מציגה שורה של יכולות וחידושים משמעותיים:
- חשיבה מורחבת עם שימוש בכלים (בטא): שני המודלים יכולים כעת להשתמש בכלים — כמו חיפוש באינטרנט — במהלך תהליכי חשיבה מורחבים. יכולת זו מאפשרת ל-Claude לעבור בין שלבי חשיבה לשימוש בכלים כדי לשפר את התשובות.
- יכולות מודל חדשות: המודלים תומכים בשימוש מקביל בכלים, מדויקים יותר בביצוע הוראות, ומציגים יכולות זיכרון משופרות באופן ניכר כאשר הם מקבלים גישה לקבצים מקומיים על ידי מפתחים. הם מסוגלים לשלוף ולשמור מידע מפתח כדי לשמור על רציפות ולבנות ידע טאציטי לאורך זמן.
- Claude Code זמין לכלל: לאחר פידבק חיובי נרחב בשלב ה-Research Preview, אנתרופיק מרחיבה את שיתוף הפעולה עם Claude למפתחים. Claude Code תומך כעת במשימות רקע באמצעות GitHub Actions ובאינטגרציות מובנות עם VS Code ו-JetBrains, ומציג עריכות ישירות בקבצים לקידוד סוכני חלק.
- יכולות API חדשות: משוחררות ארבע יכולות API חדשות המאפשרות למפתחים לבנות סוכני AI עוצמתיים יותר: כלי ביצוע קוד, מחבר MCP, Files API, והיכולת לשמור פרומפטים במטמון (cache) למשך עד שעה.
ביצועים, שותפויות וזמינות
Claude Opus 4 מתבסס על יכולות הקידוד ופתרון בעיות מורכבות שלו, ומוביל במדדי ביצועים כמו SWE-bench עם 72.5% וב-Terminal-bench עם 43.2%. יכולות הזיכרון שלו שופרו באופן דרמטי, והוא מסוגל ליצור ולתחזק 'קבצי זיכרון' לאחסון מידע מפתח, מה שמשפר את המודעות למשימות ארוכות טווח ואת קוהרנטיות סוכני ה-AI. Claude Sonnet 4 מציג אף הוא שיפורים משמעותיים ביכולות הקידוד, עם 72.7% ב-SWE-bench, ומציע איזון אופטימלי בין ביצועים ליעילות עבור מגוון רחב של תרחישים.
חברות מובילות כבר מדווחות על ההשפעה:
"Claude Sonnet 4 מרקיע שחקים בתרחישים סוכנים (agentic scenarios) ויוצג כמודל המניע את סוכן הקידוד החדש ב-GitHub Copilot," כך נמסר מ-GitHub.שני המודלים זמינים כמודלים היברידיים המציעים תגובות מיידיות או "חשיבה מורחבת" לעיבוד מעמיק יותר, וניתנים לפריסה דרך ה-API של אנתרופיק, Amazon Bedrock, ו-Google Cloud's Vertex AI. המחירים נשארים עקביים עם המודלים הקודמים. אנתרופיק מדגישה כי המודלים החדשים עברו בדיקות והערכות נרחבות כדי למזער סיכונים ולמקסם בטיחות, כולל יישום אמצעי הגנה מתקדמים ברמת AI Safety Level 3 (ASL-3).



