חברת אנתרופיק (Anthropic) משיקה היום את Claude 3.5 Sonnet, המודל הראשון בסדרת מודלי Claude 3.5 הקרובה. מודל ה-LLM החדש מציב רף חדש בתעשייה בתחום האינטליגנציה, כשהוא עולה בביצועיו על מודלים מתחרים ואף על Claude 3 Opus, מודל הדגל הקודם של אנתרופיק, במגוון רחב של מדדי ביצועים. כל זאת, תוך שמירה על מהירות ועלות של מודל הביניים הקודם שלה, Claude 3 Sonnet.

Claude 3.5 Sonnet זמין כעת בחינם באתר Claude.ai ובאפליקציית Claude ל-iOS, ומנויי Claude Pro ותוכניות Team יכולים לגשת אליו עם מגבלות שימוש גבוהות באופן משמעותי. המודל זמין גם באמצעות ה-API של אנתרופיק, Amazon Bedrock, ו-Vertex AI של Google Cloud. עלות השימוש במודל עומדת על 3 דולר למיליון טוקנים בקלט ו-15 דולר למיליון טוקנים בפלט, עם חלון הקשר של 200K טוקנים.

Claude 3.5 Sonnet: אינטליגנציה פורצת דרך במהירות כפולה

Claude 3.5 Sonnet קובע מדדי ביצועים חדשים בתעשייה עבור חשיבה ברמת תואר שני (GPQA), ידע ברמת תואר ראשון (MMLU) וקידוד סוכני (HumanEval). המודל מציג שיפור ניכר בהבנת ניואנסים, הומור והוראות מורכבות, והוא מצטיין בכתיבת תוכן איכותי עם טון טבעי ונגיש. Claude 3.5 Sonnet פועל במהירות כפולה מזו של Claude 3 Opus. שיפור ביצועים זה, בשילוב עם תמחור חסכוני, הופך את Claude 3.5 Sonnet לאידיאלי למשימות מורכבות כמו תמיכת לקוחות רגישת-הקשר ותזמור תהליכי עבודה מרובי-שלבים.

במבחן קידוד סוכני פנימי, Claude 3.5 Sonnet פתר 64% מהבעיות, ועקף את Claude 3 Opus שפתר 38%. הערכה זו בודקת את יכולתו של המודל לתקן באג או להוסיף פונקציונליות לבסיס קוד פתוח, בהינתן תיאור בשפה טבעית של השיפור הרצוי. כאשר הוא מקבל הנחיות וכלים רלוונטיים, Claude 3.5 Sonnet יכול לכתוב, לערוך ולבצע קוד באופן עצמאי עם יכולות חשיבה ותיקון תקלות מתוחכמות. הוא מטפל בתרגומי קוד בקלות, מה שהופך אותו ליעיל במיוחד לעדכון יישומים ישנים ולהעברת בסיסי קוד.

Claude 3.5 Sonnet הוא גם מודל הראייה החזק ביותר של אנתרופיק עד כה, ועוקף את Claude 3 Opus במדדי ביצועים סטנדרטיים של ראייה. שיפורים משמעותיים אלו בולטים במיוחד במשימות הדורשות חשיבה ויזואלית, כמו פענוח תרשימים וגרפים. Claude 3.5 Sonnet יכול גם לתמלל טקסט מדויק מתמונות לא מושלמות – יכולת ליבה עבור קמעונאות, לוגיסטיקה ושירותים פיננסיים, שבהם AI עשוי לשאוב יותר תובנות מתמונה, גרפיקה או איור מאשר מטקסט בלבד.

Artifacts: סביבת עבודה שיתופית חדשה

במקביל, אנתרופיק מציגה היום את Artifacts ב-Claude.ai, תכונה חדשה המרחיבה את אופן האינטראקציה של משתמשים עם Claude. כאשר משתמש מבקש מ-Claude לייצר תוכן כמו קטעי קוד, מסמכי טקסט או עיצובי אתרים, Artifacts אלה מופיעים בחלון ייעודי לצד השיחה. זה יוצר סביבת עבודה דינמית שבה משתמשים יכולים לראות, לערוך ולבנות על יצירותיו של Claude בזמן אמת, ולשלב תוכן שנוצר על ידי AI בצורה חלקה בפרויקטים ובתהליכי העבודה שלהם.

תכונת הצצה זו מסמלת את האבולוציה של Claude מ-AI שיחתי לסביבת עבודה שיתופית. זוהי רק ההתחלה של חזון רחב יותר עבור Claude.ai, שיתרחב בקרוב לתמיכה בשיתוף פעולה בצוותים. בעתיד הקרוב, צוותים – ובסופו של דבר ארגונים שלמים – יוכלו לרכז באופן מאובטח את הידע, המסמכים ועבודתם המתמשכת במרחב משותף אחד, כאשר Claude ישמש כחבר צוות זמין לפי דרישה.

אנתרופיק מדגישה את מחויבותה לבטיחות ופרטיות. המודלים שלה עוברים בדיקות קפדניות ועברו אימון שמטרתו להפחית שימושים לרעה. למרות קפיצת המדרגה באינטליגנציה של Claude 3.5 Sonnet, הערכות Red Teaming של החברה קבעו כי המודל נותר ברמת ASL-2 (Anthropic Safety Level 2). פרטים נוספים ניתן למצוא בנספח כרטיס המודל. כחלק ממחויבות זו, אנתרופיק שיתפה פעולה עם מומחים חיצוניים כדי לבחון ולשפר את מנגנוני ההגנה במודל. היא אף סיפקה את Claude 3.5 Sonnet למכון הבטיחות של ה-AI בבריטניה (UK AISI) להערכת בטיחות לפני פריסה, תוצאות ששותפו עם המכון האמריקאי (US AISI). בנוסף, שולבו משובים ממומחי נושא חיצוניים, כולל מומחי בטיחות ילדים מ-Thorn, כדי לעדכן את סיווגי המודל ולבצע כוונון עדין למודלים. באשר לפרטיות, אנתרופיק מצהירה כי אינה מאמנת את המודלים הגנרטיביים שלה על נתונים שהוגשו על ידי משתמשים, אלא אם המשתמש נותן אישור מפורש לכך.

אנתרופיק שואפת לשפר באופן מהותי את עקומת האיזון בין אינטליגנציה, מהירות ועלות מדי כמה חודשים. להשלמת סדרת מודלי Claude 3.5, החברה תשחרר את Claude 3.5 Haiku ואת Claude 3.5 Opus בהמשך השנה. בנוסף לעבודה על סדרת המודלים מהדור הבא, אנתרופיק מפתחת מודאליות ויכולות חדשות לתמיכה במקרי שימוש עסקיים נוספים, כולל אינטגרציות עם יישומים ארגוניים. צוות הפיתוח בוחן גם תכונות כמו Memory, שתאפשר ל-Claude לזכור את העדפות המשתמש והיסטוריית האינטראקציה שלו, מה שיהפוך את חווית השימוש לאישית ויעילה עוד יותר.