אנתרופיק משחררת כלים בקוד פתוח לפענוח מעגלי חשיבה במודלי שפה

במחקר הפרשנות האחרון שלנו, הצגנו שיטה חדשנית המאפשרת להתחקות אחר תהליכי החשיבה הפנימיים של מודל שפה גדול (LLM). כעת, אנו שמחים להודיע על שחרור השיטה בקוד פתוח, צעד שיאפשר לכל קהילת המחקר לבנות על בסיס העבודה שלנו.

הגישה שלנו מתמקדת ביצירת גרפי ייחוס (attribution graphs), אשר חושפים (באופן חלקי) את השלבים הפנימיים שהמודל ביצע בדרכו לקבל החלטה על פלט מסוים. הספרייה בקוד פתוח שאנו משחררים תומכת ביצירת גרפי ייחוס אלו עבור מודלים פופולריים בעלי משקולות פתוחות, וממשק קצה המתארח ב-Neuronpedia מאפשר לחקור את הגרפים באופן אינטראקטיבי.

פרויקט זה הובילו משתתפים בתוכנית העמיתים של אנתרופיק (Anthropic Fellows), בשיתוף פעולה עם Decode Research.

כדי להתחיל, אתם מוזמנים לבקר בממשק Neuronpedia, שם תוכלו ליצור ולצפות בגרפי ייחוס משלכם עבור פרומפטים שתבחרו. לשימושים מתקדמים יותר ולצורך מחקר, ניתן לעיין במאגר הקוד ב-GitHub. שחרור זה מאפשר לחוקרים:

לנתח מעגלי חשיבה במודלים נתמכים, על ידי יצירת גרפי ייחוס משלהם;
להציג חזותית, לסמן ולשתף גרפים בממשק קצה אינטראקטיבי;
לבחון השערות על ידי שינוי ערכי מאפיינים שונים ובחינת האופן שבו פלטי המודל משתנים.

כבר השתמשנו בכלים אלו כדי לחקור התנהגויות מעניינות, כמו חשיבה רב-שלבית וייצוגים רב-לשוניים במודלי Gemma-2-2b ו-Llama-3.2-1b. ניתן לעיין במחברת ההדגמה שלנו לדוגמאות וניתוחים. אנו מזמינים את הקהילה לסייע לנו באיתור מעגלי חשיבה מעניינים נוספים – לצורך השראה, סיפקנו גרפי ייחוס נוספים שלא ניתחנו עדיין במחברת ההדגמה וב-Neuronpedia.

מנכ"ל אנתרופיק, דריו אמודאי (Dario Amodei), כתב לאחרונה על הדחיפות שבמחקר הפרשנות, וציין כי:

"נכון להיום, הבנתנו את המנגנונים הפנימיים של AI מפגרת משמעותית אחרי ההתקדמות שאנו רואים ביכולות ה-AI."

על ידי פתיחת קוד הכלים הללו, אנו מקווים להקל על הקהילה הרחבה יותר לחקור את המתרחש בתוך מודלי שפה. אנו מצפים לראות שימושים מגוונים לכלים אלו להבנת התנהגויות המודל, כמו גם הרחבות ושיפורים שישפרו את הכלים עצמם.

ספריית איתור מעגלי החשיבה בקוד פתוח פותחה על ידי עמיתי אנתרופיק מייקל האנה (Michael Hanna) ומטוש פיוטרובסקי (Mateusz Piotrowski), בייעוץ של עמנואל אמייסן (Emmanuel Ameisen) וג'ק לינדזי (Jack Lindsey). השילוב עם Neuronpedia בוצע על ידי Decode Research (מוביל Neuronpedia: ג'וני לין (Johnny Lin); מנהל/מוביל מדעי: קארט טיגס (Curt Tigges)). גרפי ה-Gemma שלנו מבוססים על טרנסקודרים שאומנו כחלק מפרויקט GemmaScope. לשאלות או משוב, אנא פתחו תקלה ב-GitHub.

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מדד הכלכלה של אנתרופיק

דוח מדד הכלכלה של אנתרופיק: עקומות למידה

דוח מדד הכלכלה החמישי של אנתרופיק בוחן את השימוש ב-Claude בפברואר 2026, ומתבסס על מסגרת העקרונות הכלכליים שהוצגה בדוח הקודם שלנו.

מציגים את בלוג המדע החדש שלנו

אנו משיקים בלוג חדש שיתמקד ב-AI ובמדע. נשתף בו מחקרים המתבצעים באנתרופיק ובמקומות אחרים, נציג שיתופי פעולה עם חוקרים ומעבדות חיצוניות, ונדון בתהליכי עבודה מעשיים למדענים המשתמשים ב-AI בעבודתם.

אנתרופיק משחררת כלים בקוד פתוח לפענוח מעגלי חשיבה במודלי שפה