
לפרק את מודלי השפה: אנתרופיק חושפת יחידות חשיבה נסתרות ב-AI
חברת אנתרופיק (Anthropic), המובילה בתחום בטיחות ה-AI, פרסמה לאחרונה מחקר פורץ דרך המציע דרך חדשה לנתח ולהבין את מודלי השפה הגדולים (LLM). במקום להתמקד בנוירונים בודדים, המחקר מציג שיטה לפרק מודלי טרנספורמר קטנים ליחידות ניתוח מובחנות הנקראות 'פיצ'רים'. פיצ'רים אלו מייצגים שילובים לינאריים של פעילות נוירונים ומאפשרים לחשוף תכונות מודל ספציפיות ונסתרות, כמו זיהוי רצפי DNA או שפה משפטית, ובכך מקדמים את היכולת שלנו להבין וליישר מערכות AI מורכבות.
קרא עוד
