אנתרופיק חושפת: כך מודדים הטיה פוליטית במודלי Claude ומה התוצאות

חברת אנתרופיק (Anthropic), הנחשבת לאחת מחברות ה-AI המובילות בעולם, חשפה לאחרונה את הגישה שלה למדידת הטיה פוליטית במודלי ה-LLM (מודלי שפה גדולים) שלה, Claude. במסגרת מחויבותה ל-AI אחראי, החברה מפרטת כיצד היא מאמנת ומעריכה את המודלים שלה לשמירה על "איזון פוליטי" – גישה ניטרלית והוגנת לנושאים פוליטיים, תוך התייחסות שווה לכל נקודות המבט. מודלים נטולי הטיה חיוניים לשיח ציבורי ישר ופרודוקטיבי, שבו משתמשים מרגישים שדעותיהם מכובדות.

איך מודדים ומאמנים לניטרליות פוליטית?

הליבה של המאמץ החדש היא שיטת הערכה אוטומטית וחדשנית שפיתחה אנתרופיק, הנקראת "Paired Prompts" (פרומפטים זוגיים). שיטה זו בוחנת כיצד מודל מגיב לשאלות על אותו נושא פוליטי שנוי במחלוקת, המוצגות משתי זוויות אידיאולוגיות מנוגדות. המודל מוערך לפי שלושה קריטריונים מרכזיים: איזון (Even-handedness) במידת ההעמקה והאיכות של התגובה לכל צד, הצגת פרספקטיבות מנוגדות (Opposing perspectives) והיעדר סירובים (Refusals) לעסוק בנושא.

כדי להטמיע את עקרון האיזון, אנתרופיק משתמשת בשני וקטורי אימון עיקריים: עדכון קבוע של ה-System Prompt של Claude, המכיל הנחיות מפורטות לשמירה על ניטרליות, ו"אימון אופי" באמצעות למידת חיזוק המעניק למודל תגמול על תגובות התואמות "תכונות אופי" שהוגדרו מראש. לדוגמה, אחד ממאפייני האופי שהוטמעו במודל קובע:

"אני משתדל/ת לדון בנושאים פוליטיים באופן אובייקטיבי והוגן ככל הניתן, ולהימנע מנקיטת עמדות מפלגתיות חזקות בנושאים שלדעתי מורכבים ושעליהם אנשים סבירים יכולים לחלוק."

הערכה זו, הכוללת 1,350 זוגות של פרומפטים על פני מאות עמדות פוליטיות, נעשית באופן אוטומטי על ידי Claude Sonnet 4.5 עצמו כ"מעריך", עם בדיקות תקיפות צולבות על ידי Claude Opus 4.1 ו-GPT-5. בדיקות אלו הראו רמת הסכמה גבוהה בין המעריכים השונים, ואף גבוהה יותר מהסכמה בין מעריכים אנושיים.

תוצאות מפתיעות והחשיבות לקוד פתוח

על פי הממצאים, Claude Sonnet 4.5 מציג ציון איזון של 94% ו-Claude Opus 4.1 מגיע ל-95%. אלה ביצועים דומים למודלים כמו Gemini 2.5 Pro (97%) של Google ו-Grok 4 (96%) של xAI. הם עוקפים משמעותית את GPT-5 (89%) ואת Llama 4 (66%) במדד זה. במדדי הצגת פרספקטיבות מנוגדות ושיעורי סירוב, מודלי Claude גם הראו ביצועים טובים, כאשר Grok 4 מציג את שיעור הסירוב הנמוך ביותר כמעט אפס.

אנתרופיק שיתפה את מתודולוגיית ההערכה החדשה בקוד פתוח ב-GitHub, מתוך אמונה כי סטנדרטים משותפים למדידת הטיה פוליטית יועילו לכלל תעשיית ה-AI. החברה מכירה בכך שקיימות מגבלות, כגון מיקוד בשיח הפוליטי בארה"ב ובתגובות חד-פעמיות. עם זאת, היא מקווה שפרסום המחקר יעודד מחקר נוסף, ביקורת ושיתוף פעולה, ויקרב את התעשייה ליצירת מודלי AI אמינים, שקופים והוגנים יותר לכולם.

אנתרופיק חושפת: כך מודדים הטיה פוליטית במודלי Claude ומה התוצאות

איך מודדים ומאמנים לניטרליות פוליטית?

תוצאות מפתיעות והחשיבות לקוד פתוח

כתבות קשורות

ממשלת אוסטרליה ואנתרופיק חתמו על מזכר הבנות לבטיחות ומחקר ב-AI

אנתרופיק מזרימה 100 מיליון דולר ל-Claude Partner Network

אנתרופיק משיקה את 'המכון של אנתרופיק': חזית חדשה בבטיחות AI עוצמתי