
21 בינואר 2026
מבחנים עמידים ל-AI: המרוץ של אנתרופיק לבחון מהנדסים במציאות משתנה
אנתרופיק (Anthropic), מובילה בתחום ה-AI, מתמודדת עם אתגר הולך וגובר: כיצד להעריך מהנדסי ביצועים כשלמודלי שפה גדולים כמו Claude יש יכולת לפתור מבחנים טכניים מורכבים. הכתבה מתארת את מסע החברה בשלוש גרסאות של מבחן בית (take-home) שתוכנן לאתר כישרונות הנדסיים, וכיצד כל דור של מודל Claude הצליח להתעלות עליו, מה שאילץ את הצוות לתכנן מחדש את המבחן. היא חושפת תובנות לגבי בניית הערכות עמידות ל-AI ומציגה את האתגר הפתוח של אנתרופיק לקהילה הטכנולוגית.
קרא עוד