
1 באוגוסט 2025
וקטורי פרסונה: מנטרים ושולטים בתכונות אופי במודלי שפה
מודלי שפה גדולים (LLM) מציגים לעיתים קרובות 'אישיות' משתנה ולא צפויה, מה שעלול להוביל להתנהגויות בעייתיות כמו הזיות או הטיות. מחקר חדש של אנתרופיק (Anthropic) מציג את 'וקטורי הפרסונה' – דפוסי פעילות ספציפיים בתוך הרשת הנוירונית של המודל השולטים בתכונות אופי אלו. טכניקה חדשנית זו מאפשרת ניטור שינויי אישיות, מניעת הטיות לא רצויות במהלך אימון ואף זיהוי מוקדם של נתוני אימון בעייתיים. בכך, וקטורי פרסונה מציעים דרך פורצת דרך להבטיח את בטיחותם ויישורם של מודלי AI לערכים אנושיים.
קרא עוד