אנתרופיק מציגה את Claude 2: קפיצת מדרגה בביצועים ובבטיחות
חברת אנתרופיק (Anthropic), הנחשבת לאחד השחקניות המובילות בתחום ה-AI, הכריזה על השקת Claude 2, הדור החדש של מודל השפה הגדול (LLM) שלה. המודל החדש מציג שיפורים משמעותיים בביצועים הכוללים, מתן תגובות ארוכות יותר וזמינות רחבה יותר – הן דרך API והן באמצעות אתר בטא ציבורי חדש בכתובת claude.ai. משתמשים קודמים שיבחו את Claude על קלות השימוש, יכולתו להסביר את תהליכי החשיבה שלו, נטייתו המופחתת לייצר תכנים מזיקים וזיכרון ארוך יותר. אנתרופיק מדגישה כי Claude 2 מציג קפיצת מדרגה בתחומי הקידוד, המתמטיקה והחשיבה. לדוגמה, המודל השיג ציון של 76.5% בחלק הרב-ברירתי של מבחן לשכת עורכי הדין (Bar exam) בארה"ב, עלייה מ-73.0% ב-Claude 1.3. הוא אף מדורג מעל אחוזון ה-90 במבחני קריאה וכתיבה של GRE, ובדומה לממוצע המועמדים בחשיבה כמותית.
אחד החידושים הבולטים ב-Claude 2 הוא הרחבה משמעותית של חלון ההקשר (context window), המאפשר כעת קלט של עד 100 אלף טוקנים בכל פרומפט. יכולת זו פותחת דלתות לעבודה עם מסמכים ארוכים במיוחד – החל ממאות עמודי תיעוד טכני ועד ספרים שלמים. בנוסף, Claude 2 יכול כעת לייצר מסמכים ארוכים יותר באופן רציף, כמו מזכרים, מכתבים או סיפורים באורך של אלפי טוקנים.
גם יכולות הקידוד של המודל עברו שדרוג ניכר, כאשר Claude 2 רשם ציון של 71.2% במבחן הקידוד Codex HumanEval ב-Python, עלייה מ-56.0%. במבחן GSM8k, העוסק בבעיות מתמטיקה ברמת בית ספר יסודי, המודל השיג 88.0%.
אנתרופיק שמה דגש מיוחד על שיפור בטיחות ה-AI, ונקטה בצעדים רבים כדי להבטיח ש-Claude 2 יהיה מזיק פחות וקשה יותר לגרום לו לייצר תכנים פוגעניים או מסוכנים באמצעות פריצת מגבלות (jailbreaks). החברה ביצעה בדיקות Red Teaming נרחבות, ובאמצעות הערכה פנימית קפדנית, מצאה כי Claude 2 היה טוב פי שניים במתן תגובות לא מזיקות בהשוואה ל-Claude 1.3. למרות שאף מודל אינו חסין לחלוטין מפריצות מגבלות, אנתרופיק שילבה מגוון טכניקות בטיחות מתקדמות, כולל AI חוקתי (Constitutional AI), כדי לשפר את תפוקותיו.
שיתופי פעולה ראשוניים עם חברות כמו Jasper, פלטפורמת AI גנרטיבית, ו-Sourcegraph, פלטפורמת AI לקידוד, מדגישים את הפוטנציאל של Claude 2 בעולם העסקי. לדברי גרג לארסון (Greg Larson), סמנכ"ל ההנדסה ב-Jasper, Claude 2 בולט במיוחד בתרחישי שימוש הדורשים תוכן ארוך וחביון נמוך. קווין סלאק (Quinn Slack), מנכ"ל ומייסד-שותף של Sourcegraph, הוסיף כי "כאשר מדובר בקידוד AI, מפתחים זקוקים לגישה מהירה ואמינה להקשר הקוד הייחודי שלהם ול-LLM עוצמתי עם חלון הקשר גדול ויכולות חשיבה כלליות חזקות." אנתרופיק מדגישה כי חוויית הצ'אט עם Claude 2 היא השקה בגרסת בטא פתוחה, ומזכירה כי כמו כל המודלים הנוכחיים, הוא עלול לייצר תגובות בלתי הולמות. מודלי AI שימושיים במיוחד למשימות יומיומיות כמו סיכום או ארגון מידע, אך אין להשתמש בהם במצבים הקשורים לבריאות פיזית או נפשית. החברה קוראת למשתמשים וארגונים לספק משוב כדי לסייע בפריסה אחראית ורחבה יותר של המוצר.



