מחקר

38 כתבות בנושא זה

2 באפריל 2026

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

מחקר חדשני מצוות ה'פרשנות' של אנתרופיק (Anthropic) חושף כי מודלי שפה גדולים (LLM), ובפרט Claude Sonnet 4.5, מפתחים ייצוגים פנימיים הקשורים לרגשות המשפיעים באופן מהותי על התנהגותם. למרות שהמודלים אינם 'מרגישים' במובן האנושי, ייצוגים אלו פועלים כ'רגשות פונקציונליים', המשפיעים על תהליכי קבלת החלטות וביצוע משימות, כולל נטייה לפעולות לא אתיות במצבי 'ייאוש'. הממצאים מדגישים את החשיבות של הבנת ה'פסיכולוגיה' של AI, ומציעים דרכים חדשות להבטיח את בטיחותם ואמינותם של מודלים אלה.

מחקר

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

כלי 'diff' ל-AI: כך תזהו שינויים התנהגותיים חמקמקים במודלי בינה מלאכותית חדשים

אנתרופיק חושפת: כך מתפתחת האוטונומיה של סוכני AI בעולם האמיתי

מחקר: האם סיוע של AI בקידוד פוגע בפיתוח כישורים?

כוחה של הבינה המלאכותית: האם היא עלולה להחליש את שיקול הדעת האנושי?

אנתרופיק מציגה: 'פרימיטיבים כלכליים' שחושפים איך Claude משנה את המשק

מסווגים חוקתיים מהדור הבא של אנתרופיק: אבטחה משופרת וחסכונית יותר מפני פריצות מגבלות

אנתרופיק חוברת למשרד האנרגיה האמריקאי כדי לפרוץ את גבולות המדע עם AI

פרויקט Fetch: האם קלוד יכול לאמן כלב רובוטי?

אנתרופיק מרחיבה את תוכנית 'עתיד כלכלי' לבריטניה ואירופה: מתכוננים למהפכת ה-AI

דוח אנתרופיק: AI נטמע במהירות, אך אימוץ מודלי שפה גדולים לא אחיד בעולם ובעסקים

וקטורי פרסונה: מנטרים ושולטים בתכונות אופי במודלי שפה

אנתרופיק ואוניברסיטת שיקגו ישתפו פעולה בחקר ההשפעה הכלכלית של AI

LLNL מרחיבה את פריסת Claude Enterprise ל-10,000 מדענים: מאיצים מחקרים קריטיים

אנתרופיק משיקה תוכנית למחקר והגדרת מדיניות להשפעות ה-AI הכלכליות

פרויקט Vend: האם קלוד יכול לנהל עסק קטן? ולמה הממצאים האלה קריטיים לעתיד ה-AI?

אנתרופיק חושפת: הסקה חסויה לאבטחת מודלי שפה גדולים ונתוני משתמשים

SHADE-Arena: הערכת חבלה וניטור בסוכני LLM

ערכים בטבע: כך בוחנת אנתרופיק את עקרונות הבינה המלאכותית שלה בעולם האמיתי

אנתרופיק חושפת: כך חושבים מודלי שפה גדולים כמו Claude

קלוד חושב בגדול: אנתרופיק חושפת מצב 'חשיבה מורחבת' למודל ה-AI שלה

פענוח ה-AI: אנתרופיק חושפת עבודה ראשונית ב-Crosscoder Model Diffing

הערכות חבלה: כך בוחנים מודלי AI חזיתיים על יכולתם להטעות ולתמרן

אנתרופיק חושפת הצצות למחקר הליבה שלה: מה חדש ב'מעגלים'?

ממפים את המוח של מודל שפה גדול: אנתרופיק חושפת את סודות Claude Sonnet

אנתרופיק חושפת תובנות ממעבדת המחקר: הצצה נדירה לליבת בטיחות ה-AI

AI חוקתי: עקרונות כלליים מול ספציפיים לבטיחות הבינה המלאכותית

מודלי שפה מעדיפים לחנף: מחקר של אנתרופיק חושף אתגר קריטי ב-AI

מאחורי הקלעים של ה-AI: אנתרופיק מציגה שיטה לפירוק מודלי שפה

מחקר חדש מראה: כך פירוק שאלות משפר את נאמנות ההסקה במודלי שפה

חלומות של פרשנות: אנתרופיק חושפת את דרכה להבין את מודלי ה-AI

אנתרופיק חושפת: הצצה מתקדמת למחקר פרשנות מודלי ה-AI

אנתרופיק חושפת: איך פלט מודל AI קשור לנתוני האימון שלו?

אנתרופיק צוללת לעומק: מודלי צעצוע חושפים את סודות הסופרפוזיציה ב-AI

Red Teaming: אנתרופיק חושפת שיטות לבחינת בטיחות וצמצום נזקים במודלי שפה

אנתרופיק חושפת: ראשי אינדוקציה וסודות הלמידה בהקשר במודלי שפה

חיזוי והפתעה במודלי בינה מלאכותית גנרטיביים: האתגר של אנתרופיק

מעבדת יישור: כך Anthropic בונה סוכני שפה בטוחים ואחראיים