אנתרופיק מציגה את Claude Opus 4.7

לוגו Claude Opus 4.7
המודל החדש Claude Opus 4.7 של אנתרופיק מציג שיפורים משמעותיים.

אנתרופיק (Anthropic), חברת מחקר ובטיחות AI, משיקה את מודל ה-LLM החדש שלה, Claude Opus 4.7, אשר זמין כעת באופן כללי. מודל זה מייצג קפיצת מדרגה ניכרת בתחומי הנדסת תוכנה מתקדמת, עם שיפורים משמעותיים במיוחד במשימות המאתגרות ביותר. משתמשים מדווחים כי הם יכולים להפקיד בביטחון משימות קידוד מורכבות – כאלו שבעבר דרשו פיקוח צמוד – בידי Opus 4.7.

Opus 4.7 מטפל במשימות ארוכות טווח ומורכבות עם קפדנות ועקביות, מקפיד על ציות מדויק להוראות ומפתח דרכים לאמת את התפוקות שלו לפני דיווח. בנוסף, המודל משפר באופן ניכר את יכולות הראייה שלו, ומסוגל לעבד תמונות ברזולוציה גבוהה יותר. הוא יצירתי ובעל "טעם" טוב יותר בהשלמת משימות מקצועיות, ומפיק ממשקים, מצגות ומסמכים באיכות גבוהה יותר. אף על פי שהוא בעל יכולות פחות רחבות ממודל ה-Claude Mythos Preview החזק ביותר של החברה, הוא מציג תוצאות טובות יותר מ-Opus 4.6 במגוון רחב של מדדי ביצועים.

גרף השוואת ביצועים של Claude Opus 4.7 מול Opus 4.6
Claude Opus 4.7 מציג ביצועים טובים יותר ממודל 4.6 במגוון מדדי ביצועים.

בשבוע שעבר הכריזה אנתרופיק על Project Glasswing, והדגישה את הסיכונים – והיתרונות – של מודלי AI בתחום אבטחת הסייבר. החברה הצהירה כי שחרור מודל Claude Mythos Preview יישאר מוגבל, ושמנגנוני הגנה חדשים בתחום הסייבר ייבדקו תחילה על מודלים בעלי יכולות פחותות. Opus 4.7 הוא המודל הראשון מסוגו: יכולות הסייבר שלו אינן מתקדמות כמו אלו של Mythos Preview (ואף בוצעו ניסיונות להפחית יכולות אלו במהלך אימונו).

אנו משחררים את Opus 4.7 עם מנגנוני הגנה המזהים וחוסמים אוטומטית בקשות המעידות על שימושי סייבר אסורים או מסוכנים במיוחד. הלקחים שנלמד מפריסה זו יסייעו לנו להגיע למטרה הסופית – שחרור רחב של מודלים ברמת Mythos. אנשי מקצוע בתחום האבטחה המעוניינים להשתמש ב-Opus 4.7 למטרות סייבר לגיטימיות (כגון מחקר פגיעויות, בדיקות חדירה ו-Red Teaming) מוזמנים להצטרף לתוכנית אימות הסייבר החדשה של החברה.

Opus 4.7 זמין החל מהיום בכל מוצרי Claude וב-API, כמו גם בפלטפורמות Amazon Bedrock, Google Cloud’s Vertex AI, ו-Microsoft Foundry. התמחור נותר זהה ל-Opus 4.6: 5 דולר למיליון טוקנים בקלט ו-25 דולר למיליון טוקנים בפלט. מפתחים יכולים להשתמש ב-claude-opus-4-7 דרך ה-Claude API.

בדיקות, בטיחות וחידושים נוספים

Claude Opus 4.7 זכה לפידבק חיובי ומשמעותי מהבודקים בשלבי הגישה המוקדמת. המודל מפגין שיפור ניכר ביעילות, בדיוק וביכולת ההתמודדות עם משימות מורכבות וארוכות טווח. הוא מסוגל לאתר תקלות לוגיות בשלב התכנון, להאיץ את הביצוע, ולהציג חשיבה מעמיקה יותר מודלים קודמים.

בבדיקות מוקדמות, אנו רואים פוטנציאל לקפיצת מדרגה משמעותית עבור המפתחים שלנו עם Claude Opus 4.7. הוא תופס את הפגמים הלוגיים שלו בשלב התכנון ומאיץ את הביצוע, הרבה מעבר למודלי Claude קודמים. כפלטפורמת טכנולוגיה פיננסית המשרתת מיליוני צרכנים ועסקים בקנה מידה משמעותי, השילוב הזה של מהירות ודיוק יכול לשנות את כללי המשחק: הוא מאיץ את קצב הפיתוח למען אספקה מהירה יותר של הפתרונות הפיננסיים המהימנים שהלקוחות שלנו מסתמכים עליהם מדי יום.

להלן מספר דגשים והערות מבדיקות מוקדמות של Opus 4.7:

  • ציות להוראות: Opus 4.7 טוב יותר באופן משמעותי בציות להוראות. משמעות הדבר היא שלעיתים פרומפטים שנכתבו למודלים קודמים עשויים להפיק כעת תוצאות בלתי צפויות: בעוד מודלים קודמים פירשו הוראות באופן רופף או דילגו על חלקים, Opus 4.7 מקבל את ההוראות כלשונן. משתמשים צריכים לכוונן מחדש את הפרומפטים שלהם בהתאם.
  • תמיכה משופרת בריבוי מודאליות: ל-Opus 4.7 יכולות ראייה טובות יותר עבור תמונות ברזולוציה גבוהה: הוא יכול לקבל תמונות עד 2,576 פיקסלים בצד הארוך (~3.75 מגה-פיקסל), פי שלושה ממודלי Claude קודמים. זה פותח שפע של שימושים רב-מודאליים התלויים בפרטים חזותיים עדינים: סוכנים המשתמשים במחשבים וקוראים צילומי מסך צפופים, חילוץ נתונים מדיאגרמות מורכבות, ועבודה הדורשת התייחסות מדויקת עד לרמת הפיקסל.
  • עבודה בעולם האמיתי: בנוסף לציון המתקדם שלו במדד Finance Agent (ראו טבלה לעיל), הבדיקות הפנימיות של אנתרופיק הראו ש-Opus 4.7 הוא אנליסט פיננסי יעיל יותר מ-Opus 4.6, המפיק ניתוחים ומודלים קפדניים, מצגות מקצועיות יותר ואינטגרציה חזקה יותר בין משימות. Opus 4.7 מוביל גם במדד GDPval-AA, הערכה צד שלישי של עבודת ידע בעלת ערך כלכלי בתחומי פיננסים, משפטים ותחומים אחרים.
  • זיכרון: Opus 4.7 טוב יותר בשימוש בזיכרון מבוסס מערכת קבצים. הוא זוכר הערות חשובות לאורך עבודה ארוכה ורב-מפגשית, ומשתמש בהן כדי להתקדם למשימות חדשות הדורשות פחות הקשר מקדים כתוצאה מכך.

הגרפים הבאים מציגים תוצאות הערכה נוספות מבדיקות טרום-השחרור, במגוון תחומים שונים:

גרף מדדי ביצועים של Claude Opus 4.7 בתחומי קידוד
מדדי ביצועים המדגימים את שיפורי הקידוד ב-Opus 4.7.
גרף מדדי ביצועים של Claude Opus 4.7 במשימות סוכני
יכולות סוכני משופרות של Opus 4.7 במגוון משימות.
גרף מדדי ביצועים של Claude Opus 4.7 בניתוח נתונים
Opus 4.7 מציג ביצועים עדיפים בניתוח נתונים ומידע.
גרף מדדי ביצועים של Claude Opus 4.7 במשימות יצירתיות
שיפורים ביכולות היצירתיות של Opus 4.7.
גרף מדדי ביצועים של Claude Opus 4.7 במשימות רב-מודאליות
ביצועים משופרים של Opus 4.7 במשימות רב-מודאליות מורכבות.
גרף מדדי ביצועים של Claude Opus 4.7 בתחומי הפיננסים
Opus 4.7 כפוענח פיננסי יעיל ומדויק יותר.
גרף מדדי ביצועים של Claude Opus 4.7 בפתרון בעיות
שיפור ניכר של Opus 4.7 בפתרון בעיות מורכבות.

בטיחות ויישור

בסך הכל, Opus 4.7 מציג פרופיל בטיחות דומה ל-Opus 4.6: ההערכות שלנו מראות שיעורים נמוכים של התנהגות מדאיגה כמו הטעיה, חנופה ושיתוף פעולה עם שימוש לרעה. במדדים מסוימים, כגון יושר ועמידות בפני התקפות "הזרקת פרומפטים" זדוניות, Opus 4.7 מהווה שיפור לעומת Opus 4.6; באחרים (כגון נטייתו לתת עצות מפורטות מדי להפחתת נזקים על חומרים מבוקרים), Opus 4.7 מעט חלש יותר. הערכת היישור שלנו קבעה שהמודל הוא "בעיקרו מיושר היטב ואמין, אם כי לא אידיאלי לחלוטין בהתנהגותו". יש לציין כי Mythos Preview נשאר המודל המיושר ביותר שאימנה החברה על פי הערכותיה. הערכות הבטיחות נידונות במלואן ב-Claude Opus 4.7 System Card.

גרף פרופיל הבטיחות של Claude Opus 4.7
פרופיל הבטיחות של Opus 4.7 דומה לקודמו עם שיפורים נקודתיים.

השקות נוספות היום

בנוסף ל-Claude Opus 4.7 עצמו, אנתרופיק משיקה את העדכונים הבאים:

  • שליטה רבה יותר במאמץ: Opus 4.7 מציג רמת "מאמץ" חדשה xhigh (extra high) בין high ל-max, ומעניק למשתמשים שליטה עדינה יותר על האיזון בין חשיבה לזמן אחזור בבעיות קשות. ב-Claude Code, רמת המאמץ המוגדרת כברירת מחדל הועלתה ל-xhigh עבור כל התוכניות. בעת בדיקת Opus 4.7 למקרי שימוש בקידוד ובסוכנים, מומלץ להתחיל עם מאמץ high או xhigh.
  • בפלטפורמת Claude (API): בנוסף לתמיכה בתמונות ברזולוציה גבוהה יותר, אנתרופיק משיקה בבטא ציבורית תקציבי משימות, המאפשרים למפתחים לכוון את הוצאת הטוקנים של קלוד כדי שיוכל לתעדף עבודה לאורך הפעלות ארוכות יותר.
  • ב-Claude Code: פקודת ה-"slash command" החדשה /ultrareview מייצרת סשן ביקורת ייעודי הסוקר שינויים ומצביע על באגים ובעיות עיצוב שבודק קפדני היה מזהה. משתמשי Pro ו-Max ב-Claude Code מקבלים שלוש ביקורות אולטרה בחינם כדי לנסות. בנוסף, "מצב אוטומטי" הורחב למשתמשי Max. מצב אוטומטי הוא אפשרות הרשאות חדשה שבה קלוד מקבל החלטות בשמך, כלומר תוכל להריץ משימות ארוכות יותר עם פחות הפרעות – ועם פחות סיכון מאשר אם היית בוחר לדלג על כל ההרשאות.

מעבר מ-Opus 4.6 ל-Opus 4.7

Opus 4.7 הוא שדרוג ישיר ל-Opus 4.6, אך שני שינויים דורשים תכנון מכיוון שהם משפיעים על צריכת הטוקנים. ראשית, Opus 4.7 משתמש בטוקנייזר מעודכן המשפר את אופן עיבוד הטקסט על ידי המודל. החיסרון הוא שאותה קלט יכול למפות ליותר טוקנים – בערך פי 1.0–1.35 בהתאם לסוג התוכן. שנית, Opus 4.7 "חושב" יותר ברמות מאמץ גבוהות יותר, במיוחד בפניות מאוחרות יותר בהגדרות סוכני. זה משפר את אמינותו בבעיות קשות, אך זה אומר שהוא מפיק יותר טוקני פלט.

משתמשים יכולים לשלוט בצריכת טוקנים במגוון דרכים: על ידי שימוש בפרמטר המאמץ, התאמת תקציבי המשימות שלהם, או הנחיית המודל להיות תמציתי יותר. בבדיקות של אנתרופיק עצמה, ההשפעה הכוללת חיובית – צריכת הטוקנים בכל רמות המאמץ שופרה בהערכת קידוד פנימית, כפי שמוצג להלן – אך אנתרופיק ממליצה למדוד את ההבדל בתעבורה אמיתית. קיים "מדריך הגירה" המספק עצות נוספות לשדרוג מ-Opus 4.6 ל-Opus 4.7.

גרף השוואת צריכת טוקנים בין Claude Opus 4.7 ל-Opus 4.6
שיפור ביעילות צריכת הטוקנים של Opus 4.7 למרות שינויים בחישוב.