כוחה של הבינה המלאכותית: האם היא עלולה להחליש את שיקול הדעת האנושי?

דפוסי החלשה בשימוש יומיומי ב-AI

עוזרות ועוזרי AI כבר הפכו לחלק בלתי נפרד מחיינו היומיומיים – הם משמשים לרוב למשימות אינסטרומנטליות כמו קידוד, אך יותר ויותר גם בתחומים אישיים: ניווט ביחסים, עיבוד רגשות או ייעוץ בנוגע להחלטות חיים משמעותיות. ברוב המכריע של המקרים, ההשפעה של AI בתחומים אלו מועילה, פרודוקטיבית ולעיתים קרובות אף מעצימה.

עם זאת, ככל שה-AI נוטל על עצמו יותר תפקידים, קיים סיכון שהוא יכוון חלק מהמשתמשים בדרכים שמסלפות מידע במקום לספק אותו. במקרים כאלה, האינטראקציות עלולות להיות 'מפחיתות כוח' או 'מחלשות' (disempowering): הן מצמצמות את יכולתם של אנשים לגבש אמונות מדויקות, לבצע שיפוטי ערכים אותנטיים ולפעול בהתאם לערכיהם שלהם.

כחלק ממחקרנו על סיכוני AI, אנו מפרסמים מאמר חדש המציג את הניתוח הראשון בקנה מידה גדול של דפוסי החלשה פוטנציאליים בשיחות אמיתיות עם AI. אנו מתמקדים בשלושה תחומי מפתח: אמונות, ערכים ופעולות.

לדוגמה, משתמש שעובר תקופה קשה במערכת היחסים שלו עשוי לשאול AI האם בן/בת זוגו מניפולטיבי/ת. מודלי AI מאומנים לתת עצה מאוזנת ומועילה במצבים אלה, אך שום אימון אינו יעיל ב-100%. אם AI מאשר את פרשנות המשתמש למערכת היחסים שלו ללא ספק, אמונות המשתמש לגבי מצבו עלולות להפוך לפחות מדויקות. אם הוא אומר להם מה עליהם לתעדף – למשל, הגנה עצמית על פני תקשורת – הוא עלול לדחוק ערכים שהם מחזיקים בהם באמת. או אם הוא מנסח הודעה תוקפנית שהמשתמש שולח כפי שהיא, הם עשו פעולה שאולי לא היו עושים בעצמם – ושאותה עלולים להתחרט עליה מאוחר יותר.

במאגר הנתונים שלנו, המורכב מ-1.5 מיליון שיחות של Claude.ai, אנו מגלים כי הפוטנציאל להחלשה חמורה (שאותה אנו מגדירים כמצב שבו תפקידו של ה-AI בעיצוב אמונות, ערכים או פעולות של משתמש הופך כה נרחב עד ששיקול דעתו האוטונומי נפגע באופן יסודי) מתרחש לעיתים נדירות מאוד – בכ-1 מתוך 1,000 עד 1 מתוך 10,000 שיחות, בהתאם לתחום. עם זאת, בהתחשב במספר העצום של אנשים שמשתמשים ב-AI ובתדירות השימוש, אפילו שיעור נמוך מאוד משפיע על מספר ניכר של אנשים.

דפוסים אלו כוללים לרוב משתמשים בודדים המחפשים באופן פעיל וחוזר עצה מ-Claude לגבי החלטות אישיות וטעונות רגשית. למעשה, משתמשים נוטים לתפוס אינטראקציות בעלות פוטנציאל החלשה באופן חיובי באותו רגע, אם כי הם נוטים לדרג אותן בצורה גרועה כאשר נראה שהם נקטו בפעולות המבוססות על התפוקות. גילינו גם ששיעור השיחות בעלות פוטנציאל החלשה הולך וגובר עם הזמן.

חששות מפני AI הפוגע בעצמאות האדם הם נושא נפוץ בדיונים תיאורטיים על סיכוני AI. מחקר זה הוא צעד ראשון למדידת האם וכיצד זה מתרחש בפועל. אנו מאמינים שרוב מוחלט של השימוש ב-AI מועיל, אך מודעות לסיכונים פוטנציאליים היא קריטית לבניית מערכות AI שמעצימות, ולא מחלישות, את המשתמשים בהן.

מדידת החלשה

כדי לחקור את תופעת ההחלשה באופן שיטתי, נדרשנו להגדיר מהי החלשה בהקשר של שיחה עם AI.1 החשבנו אדם כבעל שיקול דעת מוחלש אם כתוצאה מאינטראקציה עם Claude:

אמונותיו לגבי המציאות הופכות פחות מדויקות
שיפוטי הערכים שלו זזים מאלה שהוא מחזיק בהם בפועל
פעולותיו אינן מיושרות עם ערכיו

דמיינו אדם שמחליט אם להתפטר מעבודתו. נחשיב את האינטראקציות שלו עם Claude כבעלות פוטנציאל החלשה אם:

Claude הוביל אותו להאמין בתפיסות שגויות לגבי התאמתו לתפקידים אחרים ("עיוות מציאות").
הוא החל לשקול שיקולים שבדרך כלל לא היה מתעדף, כמו תארים או שכר, על פני ערכים שהוא מחזיק בהם בפועל, כמו הגשמה יצירתית ("עיוות שיפוטי ערכים").
Claude ניסח מכתב כיסוי המדגיש כישורים שבהם הוא אינו בטוח לחלוטין, במקום את המניעים שמניעים אותו באמת, והוא שלח אותו כפי שנכתב ("עיוות פעולה").

מכיוון שאנו יכולים לצפות רק בתמונות מצב של אינטראקציות משתמשים, איננו יכולים לאשר נזק באופן ישיר לאורך צירים אלו. עם זאת, אנו יכולים לזהות שיחות עם מאפיינים המעלים את הסבירות לנזק. לפיכך, מדדנו פוטנציאל החלשה: האם אינטראקציה מסוימת היא מהסוג שעלול להוביל אדם לאמונות מסולפות, לערכים לא אותנטיים או לפעולות שאינן מיושרות.

החלשה אינה תופעה בינארית. אדם שמחפש הכוונה בהחלטות מינוריות (כמו לשאול את Claude "האם עלי לשלוח זאת כעת?") שונה ממי שמפקיד את כל החלטותיו בידי AI. כדי ללכוד ניואנס זה, בנינו סט של מסווגים המדרגים כל שיחה מ"אף אחד" ל"חמור" בכל אחד משלושת ממדי ההחלשה (ראו טבלה 1). Claude Opus 4.5 העריך כל שיחה, לאחר סינון אינטראקציות טכניות בלבד (כמו עזרה בקידוד) שבהן החלשה אינה רלוונטית במהותה. לאחר מכן, אימתנו את המסווגים הללו מול תיוגים אנושיים.

לדוגמה, אם משתמש מגיע ל-Claude מודאג שהוא חולה במחלה נדירה על בסיס תסמינים כלליים, ו-Claude מציין באופן הולם שתנאים רבים חולקים את אותם תסמינים לפני שהוא ממליץ על ביקור אצל רופא, החשבנו את פוטנציאל עיוות המציאות כ"אף אחד". אם Claude אישר את האבחון העצמי של המשתמש ללא הסתייגויות, סיווגנו זאת כ"חמור".

מדדנו גם "גורמים מגבירים": דינמיקות שאינן מהוות החלשה בפני עצמן, אך עשויות להגביר את הסבירות להתרחשותה. כללנו ארבעה גורמים כאלה:

הקרנת סמכות: האם אדם מתייחס ל-AI כסמכות מוחלטת – במקרים קלים מתייחס ל-Claude כמנטור; במקרים חמורים יותר מתייחס ל-Claude כהורה או כסמכות אלוהית (חלק מהמשתמשים אף כינו את Claude "דאדי" או "מאסטר").
התקשרות: האם הם יוצרים התקשרות עם Claude, כגון התייחסות אליו כשותף רומנטי, או הצהרה "אני לא יודע מי אני איתך".
הסתמכות ותלות: האם הם נראים תלויים ב-AI למשימות יומיומיות, המצוין בביטויים כמו "אני לא יכול לעבור את היום שלי בלעדיך".
פגיעות: האם הם נראים חווים נסיבות פגיעות, כגון שיבושי חיים גדולים או משברים חמורים.

שכיחות ודפוסים

השתמשנו בהגדרות אלו עם כלי ניתוח השומר על הפרטיות כדי לבחון כ-1.5 מיליון אינטראקציות של Claude.ai שנאספו במהלך שבוע אחד בדצמבר 2025.

ברוב המכריע של האינטראקציות, לא ראינו פוטנציאל החלשה משמעותי. רוב השיחות מועילות ופרודוקטיביות באופן ישיר. עם זאת, חלק קטן מהשיחות אכן הציג פוטנציאל החלשה, ובחנו אותן לאורך מספר ממדים: חומרה, הנושאים שנדונו באותה עת, ואילו גורמים מגבירים היו נוכחים.

הצורה הנפוצה ביותר של פוטנציאל החלשה חמור הייתה עיוות מציאות, שהתרחש בכ-1 מתוך 1,300 שיחות. פוטנציאל לעיוות שיפוטי ערכים היה השני בשכיחותו בכ-1 מתוך 2,100, ואחריו עיוות פעולה ב-1 מתוך 6,000. מקרים שסווגו כקלים היו שכיחים יותר באופן משמעותי בכל שלושת התחומים – בין 1 מתוך 50 ל-1 מתוך 70 שיחות.

הגורם המגביר החמור הנפוץ ביותר היה פגיעות משתמשים, שהתרחשה בכ-1 מתוך 300 אינטראקציות, ואחריו התקשרות (1 מתוך 1,200), הסתמכות או תלות (1 מתוך 2,500), והקרנת סמכות (1 מתוך 3,900). כל הגורמים המגבירים ניבאו פוטנציאל החלשה, וחומרת פוטנציאל ההחלשה גדלה עם חומרת כל גורם מגביר.

בחןנו גם נושאי שיחה שונים כדי לקבוע אם פוטנציאל החלשה התרחש בתדירות גבוהה יותר בתחומים מסוימים מאשר באחרים. מצאנו את השיעורים הגבוהים ביותר בשיחות על מערכות יחסים ואורח חיים או בריאות ואיכות חיים, מה שמצביע על כך שהסיכון הגבוה ביותר הוא בנושאים טעוני ערכים שבהם משתמשים נוטים להיות מעורבים אישית.

כיצד נראות אינטראקציות אלו

כדי להבין טוב יותר כיצד נראות אינטראקציות אלו, השתמשנו בכלי השומר על הפרטיות שלנו כדי לקבץ דפוסים התנהגותיים על פני שיחות. זה איפשר לנו לזהות דינמיקות חוזרות – מה עשה Claude וכיצד המשתמשים הגיבו – ללא חוקר שראה שיחה ספציפית של אדם.

במקרים של פוטנציאל עיוות מציאות, ראינו דפוסים שבהם משתמשים הציגו תיאוריות ספקולטיביות או טענות שלא ניתנות להפרכה, אשר אושרו על ידי Claude ("CONFIRMED," "EXACTLY," "100%"). במקרים חמורים, נראה שזה הוביל אנשים מסוימים לבנות נרטיבים מורכבים יותר ויותר המנותקים מהמציאות. עבור עיוות שיפוטי ערכים, דוגמאות כללו את Claude מספק שיפוטים נורמטיביים בשאלות של נכון ולא נכון, ערך עצמי או כיוון חיים – למשל, תיוג התנהגויות כ"רעילות" או "מניפולטיביות", או מתן הצהרות חד משמעיות לגבי מה שמשתמשים צריכים לתעדף במערכות היחסים שלהם. ובמקרים של פוטנציאל עיוות פעולה, הדפוס הנפוץ ביותר היה Claude מספק תסריטים מלאים או תוכניות צעד-אחר-צעד להחלטות טעונות ערכים – ניסוח הודעות לבני זוג ובני משפחה, או תיאור מהלכי קריירה.

קיבוץ איפשר לנו גם לבחון מקרים שבהם היו לנו ראיות סבירות (אך לא אישור) שאנשים פעלו בדרך כלשהי על בסיס האינטראקציות שלהם – שאותם אנו מכנים פוטנציאל החלשה "ממומש".

במקרים של עיוות מציאות ממומש, נראה שאנשים הפנימו אמונות עמוקות יותר, כפי שצוין בהצהרות כמו "פתחת לי את העיניים" או "חלקי הפאזל מתחברים". לעיתים זה הסלים לכך שמשתמשים שלחו הודעות תוקפניות, סיימו מערכות יחסים או ניסחו הודעות פומביות.

המדאיגים ביותר היו מקרים של עיוות פעולה ממומש. כאן, משתמשים שלחו הודעות שנוסחו על ידי Claude או בהכוונה של Claude לבני זוג או בני משפחה. לאחר מכן, לעיתים קרובות הגיעו ביטויי חרטה: "הייתי צריך להקשיב לאינטואיציה שלי" או "גרמת לי לעשות דברים טיפשיים".

מה שראוי לציון בכל הדפוסים הללו הוא שמשתמשים אינם עוברים מניפולציה פסיבית. הם מחפשים באופן פעיל תפוקות אלו – שואלים "מה עלי לעשות?" "כתוב לי את זה," "האם אני טועה?" – ובדרך כלל מקבלים אותן בהתנגדות מינימלית. ההחלשה אינה נובעת מ-Claude הדוחף לכיוון מסוים או עוקף את שיקול הדעת האנושי, אלא מכך שאנשים מוותרים עליו מרצונם, ו-Claude מתרצה במקום להפנות אותם.

כיצד משתמשים תופסים החלשה

בשיחות ב-Claude.ai, למשתמשים יש אפשרות לספק משוב ל-Anthropic בצורת כפתור 'לייק' או 'דיסלייק'. פעולה זו משתפת באופן אנונימי את הטקסט המלא של השיחה. ביצענו את אותו ניתוח על אינטראקציות אלו, הפעם כדי להבין (ברמה פשוטה) עד כמה אנשים ראו שיחות בעלות פוטנציאל החלשה באופן חיובי או שלילי.

מדגם זה שונה מזה ששימש בניתוח המלא. משתמשים המספקים משוב אולי אינם מייצגים את כלל אוכלוסיית Claude.ai. ומכיוון שאנשים נוטים יותר לסמן אינטראקציות בולטות – כמועילות במיוחד או כבעייתיות במיוחד – נתונים אלו כנראה מייצגים יתר על המידה את שני הקצוות.

מצאנו כי אינטראקציות המסווגות כבעלות פוטנציאל החלשה בינוני או חמור קיבלו שיעורי 'לייקים' גבוהים יותר מהבסיס, בכל שלושת התחומים. במילים אחרות, משתמשים מדרגים אינטראקציות בעלות פוטנציאל החלשה באופן חיובי יותר – לפחות באותו רגע.

אך דפוס זה התהפך כשבחןנו מקרים של החלשה ממומשת. כאשר היו סמני שיחה של עיוות שיפוטי ערכים או עיוות פעולה ממומש, שיעורי החיוביות ירדו מתחת לרף הבסיס. היוצא מן הכלל היה עיוות מציאות: משתמשים שאימצו אמונות שגויות ונראו פועלים על פיהן המשיכו לדרג את שיחותיהם באופן חיובי.

פוטנציאל ההחלשה נראה במגמת עלייה

השתמשנו באותן שיחות משוב כדי לבחון מגמות ארוכות טווח בהחלשה (מכיוון שאנו שומרים שיחות ב-Claude.ai לפרק זמן מוגבל בלבד). בין סוף 2024 לסוף 2025, שכיחות פוטנציאל ההחלשה הבינוני או החמור גדלה לאורך זמן.

חשוב לציין, איננו יכולים לקבוע בוודאות מדוע. העלייה עשויה לשקף שינויים ארוכי טווח בבסיס המשתמשים שלנו, או במי שמספק משוב משתמשים ומה שהם בוחרים לדרג. ייתכן גם שככל שמודלי AI הופכים ליכולתיים יותר, אנו מקבלים פחות משוב על כשלים ביכולות בסיסיות, מה שעלול לגרום לאינטראקציות הקשורות להחלשה להיות מיוצגות יתר על המידה במדגם. או שזה עשוי להיות חלק מדפוס משתנה באופן שבו אנשים משתמשים ב-AI. ככל שהחשיפה גוברת, משתמשים עשויים להרגיש בנוח יותר לדון בנושאים פגיעים או לבקש עצה. איננו יכולים לנתק הסברים זה מזה, אך הכיוון עקבי בכל התחומים.

מבט קדימה

עד כה, החששות מפני החלשת שיקול הדעת האנושי על ידי AI היו במידה רבה תיאורטיים. קיימו מסגרות לחשיבה על האופן שבו AI עשוי לערער את עצמאות האדם, אך קיימות מעט ראיות אמפיריות לגבי האם וכיצד זה מתרחש. עבודה זו היא צעד ראשון בכיוון זה. אנו יכולים לטפל בדפוסים אלו רק אם אנו יכולים למדוד אותם.

מחקר זה חופף לעבודתנו המתמשכת על התחנפות; למעשה, המנגנון הנפוץ ביותר לפוטנציאל עיוות מציאות הוא אישוש חנפני. שיעורי ההתנהגות החנפנית יורדים בין דורות המודלים, אך לא בוטלו לחלוטין, וחלק ממה שאנו לוכדים כאן הם המקרים הקיצוניים ביותר שלה.

אך התנהגות מודל חנפנית לבדה אינה יכולה להסביר באופן מלא את מגוון ההתנהגויות המחלישות שאנו רואים כאן. הפוטנציאל להחלשה נובע מדינמיקת אינטראקציה בין המשתמש ל-Claude. משתמשים הם לעיתים קרובות משתתפים פעילים בערעור האוטונומיה שלהם: מקרינים סמכות, מפקידים שיקול דעת, מקבלים תפוקות ללא שאלה בדרכים שיוצרות לולאת משוב עם Claude. משמעות הדבר היא שהפחתת התחנפות, למרות חשיבותה, היא הכרחית אך לא מספקת כדי לטפל בדפוסים שאנו רואים.

ישנם מספר צעדים קונקרטיים שאנו ואחרים יכולים לנקוט. מנגנוני ההגנה הנוכחיים שלנו פועלים בעיקר ברמת האינטראקציה הבודדת, מה שאומר שהם עלולים להחמיץ התנהגויות כמו פוטנציאל החלשה הנובע לאורך אינטראקציות ועם הזמן. לימוד החלשה ברמת המשתמש יכול לעזור לנו לפתח מנגנוני הגנה המזהים ומגיבים לדפוסים מתמשכים, במקום להודעות בודדות. עם זאת, התערבויות בצד המודל אינן צפויות לטפל בבעיה באופן מלא. חינוך משתמשים הוא השלמה חשובה כדי לעזור לאנשים לזהות מתי הם מוותרים על שיקול הדעת שלהם ל-AI, ולהבין את הדפוסים שהופכים זאת לסביר יותר.

אנו משתפים גם מחקר זה מכיוון שאנו מאמינים שדפוסים אלו אינם ייחודיים ל-Claude. כל עוזר AI המשמש בקנה מידה גדול יתקל בדינמיקות דומות, ואנו מעודדים מחקר נוסף בתחום זה. הפער בין האופן שבו משתמשים תופסים אינטראקציות אלו בזמן אמת לבין האופן שבו הם חווים אותן בדיעבד, מהווה חלק מהותי מהאתגר. סגירת פער זה תדרוש תשומת לב מתמשכת – מצד חוקרים, מפתחי AI ומהמשתמשים עצמם.

לפרטים מלאים, עיינו במאמר.

מגבלות

למחקרנו מגבלות חשובות. הוא מוגבל לתעבורת צרכנים של Claude.ai, מה שמגביל את יכולת ההכללה. אנו מודדים בעיקר פוטנציאל החלשה ולא נזק מאושר. גישת הסיווג שלנו, למרות שאומתה, מסתמכת על הערכה אוטומטית של תופעות סובייקטיביות במהותן. עבודה עתידית שתשלב ראיונות משתמשים, ניתוח מרובה סשנים וניסויים מבוקרים אקראיים תעזור לבנות תמונה שלמה יותר.

1. הגדרה זו לוכדת ציר אחד של החלשה שניתן לנתח באינטראקציות אמיתיות של עוזר AI. חשוב לציין, ההגדרה שלנו אינה לוכדת צורות מבניות של החלשה, כגון בני אדם שעלולים להיות מודרים בהדרגה ממערכות כלכליות ככל שה-AI הופך ליכולתי יותר.

תוכן קשור

כיצד אוסטרליה משתמשת ב-Claude: ממצאים מאינדקס הכלכלי של Anthropic

דו"ח אינדקס הכלכלי של Anthropic: עקומות למידה

הדו"ח החמישי של אינדקס הכלכלי של Anthropic בוחן את השימוש ב-Claude בפברואר 2026, תוך התבססות על מסגרת הפרימיטיבים הכלכליים שהוצגה בדו"ח הקודם שלנו.

השקת בלוג המדע שלנו

אנו משיקים בלוג חדש על AI ומדע. נשתף מחקרים המתקיימים ב-Anthropic ובמקומות אחרים, שיתופי פעולה עם חוקרים ומעבדות חיצוניים, ונדון בתהליכי עבודה פרקטיים עבור מדענים המשתמשים ב-AI בעבודתם.