הנדסת ביצועים - כתבות

21 בינואר 2026

מבחנים עמידים ל-AI: המרוץ של אנתרופיק לבחון מהנדסים במציאות משתנה

אנתרופיק (Anthropic), מובילה בתחום ה-AI, מתמודדת עם אתגר הולך וגובר: כיצד להעריך מהנדסי ביצועים כשלמודלי שפה גדולים כמו Claude יש יכולת לפתור מבחנים טכניים מורכבים. הכתבה מתארת את מסע החברה בשלוש גרסאות של מבחן בית (take-home) שתוכנן לאתר כישרונות הנדסיים, וכיצד כל דור של מודל Claude הצליח להתעלות עליו, מה שאילץ את הצוות לתכנן מחדש את המבחן. היא חושפת תובנות לגבי בניית הערכות עמידות ל-AI ומציגה את האתגר הפתוח של אנתרופיק לקהילה הטכנולוגית.

קרא עוד