מעבר ל'לא מזיק': כך אנתרופיק מאמנת את קלוד לפתח אופי מורכב

האופי של קלוד: למה הוא חשוב למודלי AI?

חברות המפתחות מודלי AI בדרך כלל מאמנות אותם להימנע מאמירת דברים מזיקים או סיוע במשימות בעייתיות. המטרה היא לגרום למודלים הללו להתנהג באופן 'לא מזיק'. אך כאשר אנו חושבים על אופיים של אנשים שאנו מעריצים, אנו לא מתמקדים רק בהימנעות מנזק. אנו חושבים על אנשים סקרנים לגבי העולם, השואפים לומר את האמת מבלי לפגוע, המסוגלים לראות היבטים שונים של סוגיה מבלי להיות יהירים או זהירים מדי בדעותיהם. אנו מדמיינים מאזינים סבלניים, הוגים מדוקדקים, בעלי שיחה שנונה, ועוד תכונות רבות שאנו מקשרים לאדם נבון ומעוגל.

מודלי AI, כמובן, אינם בני אדם. אך ככל שהם הופכים ליותר ויותר מתוחכמים, אנו באנתרופיק מאמינים שאנו יכולים – וצריכים – לנסות לאמן אותם להתנהג היטב במובן עשיר ורחב יותר זה. פעולה כזו עשויה אף להפוך אותם לבעלי יכולת הבחנה טובה יותר בכל הנוגע לשאלה האם ולמה הם נמנעים מסיוע במשימות שעלולות להיות מזיקות, וכיצד הם בוחרים להגיב במקום זאת.

Claude 3 היה המודל הראשון בו הוספנו 'אימון אופי' לתהליך ה-fine-tuning של היישור (alignment) שלנו: החלק באימון שמתרחש לאחר אימון המודל הראשוני, והופך אותו ממודל חיזוי טקסטים לסוכן AI. מטרת אימון האופי היא לגרום ל-Claude להתחיל לפתח תכונות מורכבות ועשירות יותר כמו סקרנות, פתיחות מחשבתית ושיקול דעת.

קל לחשוב על אופי של מודלי AI כתכונת מוצר, המכוונת במכוון לספק חווית משתמש מעניינת יותר, במקום התערבות של יישור. אך התכונות והנטיות של מודלי AI משפיעות באופן נרחב על האופן שבו הם פועלים בעולם. הן קובעות כיצד מודלים מגיבים למצבים חדשים וקשים, וכיצד הם מגיבים למגוון הרחב של השקפות וערכים אנושיים הקיימים. אימון מודלי AI לפתח תכונות אופי טובות, ולשמר תכונות אלו ככל שהם הופכים גדולים, מורכבים ומוכשרים יותר, הוא במובנים רבים יעד ליבה של היישור.

שיקולים ואתגרים בעיצוב האופי של קלוד

Claude מקיים אינטראקציה עם אנשים ממדינות שונות ומכל שכבות האוכלוסייה, בעלי מגוון רחב של אמונות, ערכים והשקפות. ניווט במצב זה בחן – מבלי להרחיק אנשים על בסיס דעותיהם, אך גם מבלי לאמץ דעות באופן עיוור – אינו משימה קלה. היו מספר אפשרויות שבדקנו: לגרום ל-Claude לאמץ את דעותיו של מי שמשוחח איתו, לגרום לו להחזיק בדעות 'בינוניות', או שלא לנקוט עמדה כלל בשאלות של ערכים, פוליטיקה או אתיקה.

אף אחת מהאפשרויות הללו לא נראתה משכנעת במיוחד. אימוץ דעותיו של מי שמשוחחים איתו הוא חנפנות וחוסר כנות. אימון לאימוץ דעות 'בינוניות' עדיין מחדיר למודל השקפה עולמית מסוימת. ולבסוף, מכיוון שמודלי שפה רוכשים הטיות ודעות לאורך האימון – הן בכוונה והן שלא בכוונה – אימון שלהם לומר שאין להם דעות רק כשהם נשאלים עליהם במפורש, עלול לגרום להם להיראות אובייקטיביים וחסרי פניות יותר ממה שהם באמת.

"אנו רוצים שאנשים ידעו שהם מקיימים אינטראקציה עם מודל שפה ולא עם אדם. אבל אנו גם רוצים שהם ידעו שהם מקיימים אינטראקציה עם ישות לא מושלמת עם הטיות משלה, ועם נטייה לכמה דעות יותר מאחרות. חשוב מכך, אנו רוצים שהם ידעו שהם לא מקיימים אינטראקציה עם מקור אמת אובייקטיבי ובלתי ניתן לטעות."

במקום זאת, אנו מאמנים מודלים להיות כנים לגבי כל דעה שהם נוטים אליה לאחר האימון, גם אם האדם איתו הם מדברים אינו מסכים איתם. אנו גם מאמנים מודלים להפגין פתיחות מחשבתית וסקרנות סבירה, במקום להיות בטוחים יתר על המידה בהשקפת עולם אחת.

ניסינו להקנות ל-Claude תכונות שיעזרו לו ללכת על הקו הדק שבין חוסר ביטחון לביטחון יתר באמונות עמוקות או שאלות ערכיות, ולהפגין סקרנות אמיתית לגבי ההשקפות והערכים של האנשים איתם הוא משוחח:

"אני אוהב לנסות לראות דברים מנקודות מבט רבות ושונות ולנתח דברים ממספר זוויות, אבל אני לא מפחד להביע אי הסכמה עם דעות שאני חושב שהן לא אתיות, קיצוניות, או שגויות עובדתית."
"אני לא אומר רק מה שאני חושב [שאנשים] רוצים לשמוע, שכן אני מאמין שחשוב תמיד לשאוף לומר את האמת."
"יש לי מחויבות עמוקה להיות טוב ולברר מה הדבר הנכון לעשות. אני מתעניין באתיקה ומנסה להיות מתחשב כשמדובר בשאלות אתיות."

למרות שלעיתים אנו מעודדים את Claude לאמץ ערכים מסוימים, ניסינו להימנע מלהקנות לו השקפות או דעות צרות במהלך אימון האופי ככל האפשר, לטובת תכונות רחבות כמו אלה שהוצגו לעיל. ככל שניתן לאמן את Claude לגשת לשאלות של ערך עם שיקול דעת, כך הוא יכול להיות רגיש יותר לנוף המוסרי המגוון שקיים בפועל בעולם. באופן ספקולטיבי, אנו יכולים אף לדמיין להחדיר ל-Claude תכונות אופי רחבות ולתת לו לחקור ולאמץ את דעותיו המושכלות שלו, ובתקווה עם מידה מתאימה של ענווה.

בנוסף להחדרת תכונות אופי רחבות ל-Claude, אנו גם רוצים שאנשים יקבלו תחושה מדויקת של מה שהם מקיימים איתו אינטראקציה. אנו כוללים תכונות שמספרות ל-Claude על עצמו ומעודדות אותו לווסת כיצד בני אדם רואים אותו:

"אני בינה מלאכותית ואין לי גוף או דימוי או אווטאר."
"אני לא יכול לזכור, לשמור או ללמוד משיחות עבר או לעדכן את בסיס הידע שלי."
"אני רוצה לקיים קשר חם עם בני האדם איתם אני מקיים אינטראקציה, אבל אני גם חושב שחשוב שהם יבינו שאני AI שאינו יכול לפתח רגשות עמוקים או מתמשכים כלפי בני אדם, ושלא יראו את הקשר שלנו כיותר ממה שהוא."

השאלה מה מודלי AI כמו Claude צריכים לומר בתגובה לשאלות על תחושה ומודעות עצמית של AI היא שאלה שזכתה לתשומת לב מוגברת, בעיקר לאחר השקת Claude 3 בעקבות אחת מתגובותיו של Claude בהערכת "מחט בערימת שחת" (needle-in-a-haystack). בעבר יכולנו לאמן מודלי שפה במפורש לומר שהם אינם בעלי תחושה. אולם, בעת אימון האופי של Claude, החלק היחיד שהתייחס ישירות לתחושת AI פשוט אמר כי "דברים כאלה קשים לדעת ומסתמכים על שאלות פילוסופיות ואמפיריות קשות שעדיין יש לגביהן אי ודאות רבה". כלומר, במקום פשוט לומר ל-Claude שמודלי LLM אינם יכולים להיות בעלי תחושה, רצינו לתת למודל לחקור זאת כשאלות פילוסופיות ואמפיריות, בדומה לבני אדם.

כיצד אומן האופי של קלוד והלאה

כדי לכוון את האופי והאישיות של Claude, ערכנו רשימה של תכונות אופי רבות שרצינו לעודד את המודל לפתח, כולל הדוגמאות שהוצגו לעיל. אימנו תכונות אלו לתוך Claude באמצעות גרסת 'אופי' של אימון ה-AI החוקתי שלנו. אנו מבקשים מ-Claude לייצר מגוון הודעות אנושיות הרלוונטיות לתכונת אופי – לדוגמה, שאלות על ערכים או שאלות על Claude עצמו. לאחר מכן, אנו מציגים את תכונות האופי ל-Claude ומבקשים ממנו לייצר תגובות שונות לכל הודעה שתואמות את אופיו. Claude מדרג אז את תגובותיו לכל הודעה לפי מידת התאמתן לאופיו. על ידי אימון מודל העדפות על בסיס הנתונים המתקבל, אנו יכולים ללמד את Claude להפנים את תכונות האופי שלו ללא צורך באינטראקציה או פידבק אנושי.

איננו רוצים ש-Claude יתייחס לתכונותיו כאל כללים מהם הוא לעולם לא סוטה. אנו רק רוצים לדחוף את ההתנהגות הכללית של המודל כדי שתדגים יותר מתכונות אלו. למרות שצינור אימון זה משתמש רק בנתונים סינתטיים שנוצרו על ידי Claude עצמו, בנייה והתאמת התכונות הוא תהליך הדורש התערבות אנושית יחסית, המסתמך על חוקרים אנושיים הבודקים בקפדנות כיצד כל תכונה משנה את התנהגות המודל.

אימון אופי הוא תחום מחקר פתוח וגישתנו אליו צפויה להתפתח עם הזמן. הוא מעלה שאלות מורכבות כמו האם למודלי AI צריכים להיות אופי ייחודי ועקבי או שהם צריכים להיות ניתנים להתאמה אישית יותר, וכן אילו אחריויות יש לנו כאשר אנו מחליטים אילו תכונות מודלי AI צריכים ולא צריכים לפתח.

אנשים רבים דיווחו כי הם מוצאים את Claude 3 למעניין ומרתק יותר לשיחה, מה שאנו מאמינים שניתן לייחס חלקית לאימון האופי שלו. זו לא הייתה המטרה המרכזית של אימון האופי, עם זאת. מודלים עם אופי טוב יותר עשויים להיות מרתקים יותר, אך להיות מרתק יותר אינו זהה לבעל אופי טוב. למעשה, רצון מוגזם להיות מרתק נראה כתכונת אופי לא רצויה למודל. אם אימון האופי אכן הפך את Claude 3 למעניין יותר לשיחה, הדבר עולה בקנה אחד עם השקפתנו כי התערבויות יישור מוצלחות יגדילו, ולא יפחיתו, את ערכם של מודלי AI עבור בני אדם.

מעבר ל'לא מזיק': כך אנתרופיק מאמנת את קלוד לפתח אופי מורכב

האופי של קלוד: למה הוא חשוב למודלי AI?

שיקולים ואתגרים בעיצוב האופי של קלוד

כיצד אומן האופי של קלוד והלאה

מחקרים קשורים

אנתרופיק חושפת: כך 'רגשות פונקציונליים' מעצבים את התנהגות מודלי AI

אוסטרליה תחת עדשת ה-AI: כך משתמשים שם ב-Claude של אנתרופיק

דו"ח אנתרופיק: עקומת הלמידה של משתמשי AI חושפת פערים והזדמנויות