פיתוח מערכת המחקר מרובת הסוכנים של קלוד: אתגרים ותובנות הנדסיות

קלוד כולל כעת יכולות מחקר המאפשרות לו לחפש ברחבי האינטרנט, ב-Google Workspace ובכל שילוב אחר, כדי לבצע משימות מורכבות.

המסע של מערכת מרובת סוכנים זו, משלב אב טיפוס ועד לייצור, לימד אותנו שיעורים קריטיים בארכיטקטורת מערכת, עיצוב כלים והנדסת פרומפטים. מערכת מרובת סוכנים מורכבת ממספר סוכנים (מודלי שפה גדולים המשתמשים בכלים באופן אוטונומי בלולאה) הפועלים יחד. יכולת ה-Research שלנו כוללת סוכן שמתכנן תהליך מחקר על בסיס פרומפטים של משתמשים, ולאחר מכן משתמש בכלים ליצירת סוכנים מקבילים המחפשים מידע בו-זמנית. מערכות עם סוכנים מרובים מציגות אתגרים חדשים בתיאום סוכנים, הערכה ואמינות.

פוסט זה מפרט את העקרונות שעבדו עבורנו – אנו מקווים שתמצאו אותם שימושיים ליישום בעת בניית מערכות מרובות סוכנים משלכם.

היתרונות של מערכת מרובת סוכנים

עבודת מחקר כוללת בעיות פתוחות שבהן קשה מאוד לחזות את הצעדים הנדרשים מראש. לא ניתן לקודד מראש נתיב קבוע לחקירת נושאים מורכבים, מכיוון שהתהליך הוא דינמי ותלוי נתיב באופן מהותי. כאשר אנשים עורכים מחקר, הם נוטים לעדכן באופן רציף את גישתם על בסיס תגליות, בעקבות רמזים העולים במהלך החקירה.

אי-ניבוי זה הופך סוכני AI למתאימים במיוחד למשימות מחקר. מחקר דורש את הגמישות לסטות או לחקור קשרים משיקים ככל שהחקירה מתפתחת. המודל חייב לפעול באופן אוטונומי במשך פניות רבות, ולקבל החלטות לגבי אילו כיוונים לנקוט בהתבסס על ממצאים ביניים. תהליך ליניארי חד-פעמי אינו יכול להתמודד עם משימות אלו.

מהות החיפוש היא דחיסה: זיקוק תובנות ממאגר עצום של מידע. סוכני משנה מקלים על הדחיסה על ידי פעולה מקבילה עם חלונות הקשר משלהם, חוקרים היבטים שונים של השאלה בו-זמנית לפני שהם דוחסים את הטוקנים החשובים ביותר עבור סוכן המחקר הראשי. כל סוכן משנה מספק גם הפרדת דאגות – כלים, פרומפטים ומסלולי חקירה נפרדים – מה שמפחית את התלות בנתיב ומאפשר חקירות יסודיות ועצמאיות.

ברגע שהאינטליגנציה מגיעה לסף מסוים, מערכות מרובות סוכנים הופכות לדרך חיונית להרחבת הביצועים. לדוגמה, אף על פי שבני אדם בודדים הפכו לאינטליגנטיים יותר ב-100,000 השנים האחרונות, חברות אנושיות הפכו ליותר מסוגלות באופן אקספוננציאלי בעידן המידע, בזכות האינטליגנציה הקולקטיבית שלנו והיכולת לתאם. גם סוכנים אינטליגנטיים באופן כללי מגיעים למגבלות כאשר הם פועלים כפרטים; קבוצות של סוכנים יכולות להשיג הרבה יותר.

הערכות פנימיות שלנו מראות שמערכות מחקר מרובות סוכנים מצטיינות במיוחד עבור פרומפטים מסוג "רוחב-ראשון" (breadth-first) הכוללים מעקב אחר מספר כיוונים בלתי תלויים בו-זמנית. מצאנו שמערכת מרובת סוכנים עם Claude Opus 4 כסוכן הראשי וסוכני משנה של Claude Sonnet 4, עלתה בביצועיה על מערכת סוכן יחיד של Claude Opus 4 ב-90.2% במדד ביצועים הפנימי שלנו למחקר. לדוגמה, כאשר התבקשה לזהות את כל חברי הדירקטוריון של החברות במדד S&P 500 בטכנולוגיית מידע, המערכת מרובת הסוכנים מצאה את התשובות הנכונות על ידי פירוק המשימה למשימות עבור סוכני משנה, בעוד שמערכת הסוכן היחיד נכשלה במציאת התשובה בחיפושים איטיים ורציפים.

מערכות מרובות סוכנים פועלות בעיקר מכיוון שהן עוזרות להקצות מספיק טוקנים לפתרון הבעיה. בניתוח שלנו, שלושה גורמים הסבירו 95% משונות הביצועים במדד ה-BrowseComp (הבודק את יכולתם של סוכני גלישה לאתר מידע קשה למציאה). מצאנו ששימוש בטוקנים לבדו מסביר 80% מהשונות, כאשר מספר קריאות הכלים ובחירת המודל הם שני הגורמים המסבירים האחרים. ממצא זה מאשש את הארכיטקטורה שלנו המפזרת עבודה בין סוכנים עם חלונות הקשר נפרדים, כדי להוסיף קיבולת רבה יותר לחשיבה מקבילה. מודלי Claude העדכניים פועלים כמכפילי יעילות גדולים בשימוש בטוקנים, שכן שדרוג ל-Claude Sonnet 4 מניב עלייה גדולה יותר בביצועים מאשר הכפלת תקציב הטוקנים ב-Claude Sonnet 3.7. ארכיטקטורות מרובות סוכנים מרחיבות ביעילות את השימוש בטוקנים למשימות החורגות ממגבלות סוכנים בודדים.

יש גם חסרון: בפועל, ארכיטקטורות אלו שורפות טוקנים במהירות. בנתונים שלנו, סוכנים משתמשים בדרך כלל בכפי 4 טוקנים יותר מאינטראקציות בצ'אט, ומערכות מרובות סוכנים משתמשות בכפי 15 טוקנים יותר מצ'אטים. כדי להיות כלכליות, מערכות מרובות סוכנים דורשות משימות שבהן ערך המשימה גבוה מספיק כדי לכסות את העלות של הביצועים המשופרים. יתר על כן, תחומים מסוימים הדורשים מכל הסוכנים לשתף את אותו הקשר או כרוכים בתלות רבה בין סוכנים, אינם מתאימים כיום למערכות מרובות סוכנים. לדוגמה, רוב משימות הקידוד כוללות פחות משימות הניתנות למקביליות אמיתית מאשר מחקר, וסוכני LLM עדיין אינם מצוינים בתיאום והאצלה לסוכנים אחרים בזמן אמת. מצאנו שמערכות מרובות סוכנים מצטיינות במשימות בעלות ערך הכוללות מקביליות כבדה, מידע החורג מחלונות הקשר בודדים, וממשק עם כלים מורכבים רבים.

סקירת ארכיטקטורה עבור Research

מערכת ה-Research שלנו משתמשת בארכיטקטורה מרובת סוכנים עם תבנית מנהל-עובד (orchestrator-worker), שבה סוכן ראשי מתאם את התהליך תוך כדי האצלה לסוכני משנה מומחים הפועלים במקביל.

כאשר משתמש מגיש פרומפט, הסוכן הראשי מנתח אותו, מפתח אסטרטגיה ומפעיל סוכני משנה כדי לחקור היבטים שונים בו-זמנית. סוכני המשנה פועלים כמסננים חכמים על ידי שימוש איטרטיבי בכלי חיפוש לאיסוף מידע, במקרה זה על חברות סוכני AI בשנת 2025, ולאחר מכן מחזירים רשימת חברות לסוכן הראשי כדי שיוכל ללקט תשובה סופית.

גישות מסורתיות המשתמשות ב-RAG (Retrieval Augmented Generation) משתמשות בשליפה סטטית. כלומר, הן שולפות סט של נתחים (chunks) הדומים ביותר לפרומפט קלט ומשתמשות בנתחים אלו כדי לייצר תגובה. לעומת זאת, הארכיטקטורה שלנו משתמשת בחיפוש רב-שלבי שמוצא באופן דינמי מידע רלוונטי, מסתגל לממצאים חדשים, ומנתח תוצאות כדי לנסח תשובות באיכות גבוהה.

הנדסת פרומפטים והערכות עבור סוכני מחקר

למערכות מרובות סוכנים יש הבדלים מהותיים ממערכות סוכן יחיד, כולל גידול מהיר במורכבות התיאום. סוכנים מוקדמים עשו שגיאות כמו הפעלת 50 סוכני משנה עבור פרומפטים פשוטים, חיפוש אינסופי ברשת אחר מקורות לא קיימים, והסחת דעת הדדית עם עדכונים מוגזמים. מכיוון שכל סוכן מונחה על ידי פרומפט, הנדסת פרומפטים הייתה המנוף העיקרי שלנו לשיפור התנהגויות אלו. להלן מספר עקרונות שלמדנו עבור תיבת הפרומפטים של סוכנים:

חשבו כמו הסוכנים שלכם. כדי לחזור על פרומפטים, עליכם להבין את השפעותיהם. כדי לעזור לנו בכך, בנינו סימולציות באמצעות ה-Console שלנו עם הפרומפטים והכלים המדויקים מהמערכת שלנו, ולאחר מכן צפינו בסוכנים פועלים שלב אחר שלב. זה חשף באופן מיידי מצבי כישלון: סוכנים שהמשיכו לפעול למרות שכבר היו להם תוצאות מספקות, השתמשו בפרומפטים חיפוש ארוכים מדי, או בחרו כלים שגויים. הנדסת פרומפטים יעילה מסתמכת על פיתוח מודל מחשבתי מדויק של הסוכן, מה שיכול להפוך את השינויים המשפיעים ביותר לברורים.
למדו את המנהל כיצד להאציל סמכויות. במערכת שלנו, הסוכן הראשי מפרק פרומפטים למשימות משנה ומתאר אותן לסוכני משנה. כל סוכן משנה זקוק ליעד, פורמט פלט, הנחיות לגבי הכלים והמקורות לשימוש, וגבולות משימה ברורים. ללא תיאורי משימות מפורטים, סוכנים משכפלים עבודה, משאירים פערים או לא מצליחים למצוא מידע נחוץ. התחלנו בכך שאפשרנו לסוכן הראשי לתת הוראות פשוטות וקצרות כמו 'חקור את המחסור בשבבים', אך מצאנו שהוראות אלו היו לעיתים קרובות מעורפלות מספיק עד שסוכני משנה פירשו לא נכון את המשימה או ביצעו בדיוק את אותם חיפושים כמו סוכנים אחרים. לדוגמה, סוכן משנה אחד חקר את משבר שבבי הרכב של 2021 בעוד ששני סוכנים אחרים שכפלו עבודה בחקירת שרשראות אספקה עדכניות לשנת 2025, ללא חלוקת עבודה יעילה.
התאימו את המאמץ למורכבות הפרומפט. סוכנים מתקשים לשפוט את מידת המאמץ המתאימה למשימות שונות, ולכן הטמענו כללי סקיילינג בפרומפטים. איתור עובדות פשוט דורש רק סוכן אחד עם 3-10 קריאות כלים, השוואות ישירות עשויות לדרוש 2-4 סוכני משנה עם 10-15 קריאות כלים כל אחד, ומחקר מורכב עשוי להשתמש ביותר מ-10 סוכני משנה עם אחריות מחולקת בבירור. הנחיות מפורשות אלו עוזרות לסוכן הראשי להקצות משאבים ביעילות ולמנוע השקעת יתר בפרומפטים פשוטים, שהייתה מצב כשל נפוץ בגרסאותינו המוקדמות.
עיצוב ובחירת כלים הם קריטיים. ממשקי סוכן-כלי קריטיים לא פחות מממשקי אדם-מחשב. שימוש בכלי הנכון יעיל – ולעיתים קרובות, הוא הכרחי לחלוטין. לדוגמה, סוכן המחפש ברשת הקשר שקיים רק ב-Slack נידון לכישלון מההתחלה. עם MCP servers המעניקים למודל גישה לכלים חיצוניים, בעיה זו מחריפה, מכיוון שסוכנים נתקלים בכלים בלתי נראים עם תיאורים באיכות משתנה באופן דרמטי. נתנו לסוכנים שלנו כללי אצבע מפורשים: לדוגמה, בדקו תחילה את כל הכלים הזמינים, התאימו את השימוש בכלי לכוונה של המשתמש, חפשו באינטרנט לחקירה חיצונית רחבה, או העדיפו כלים מיוחדים על פני כלליים. תיאורי כלים גרועים יכולים לשלוח סוכנים למסלולים שגויים לחלוטין, ולכן כל כלי זקוק למטרה ברורה ולתיאור מובהק.
אפשרו לסוכנים לשפר את עצמם. מצאנו שמודלי Claude 4 יכולים להיות מהנדסי פרומפטים מצוינים. כאשר ניתנים להם פרומפט ומצב כשל, הם מסוגלים לאבחן מדוע הסוכן נכשל ולהציע שיפורים. אף יצרנו סוכן בודק כלים – כאשר ניתן לו כלי MCP פגום, הוא מנסה להשתמש בכלי ולאחר מכן משכתב את תיאור הכלי כדי למנוע כשלים. על ידי בדיקת הכלי עשרות פעמים, סוכן זה מצא ניואנסים ובאגים מרכזיים. תהליך זה לשיפור ארגונומיית הכלים הביא לירידה של 40% בזמן השלמת משימות עבור סוכנים עתידיים המשתמשים בתיאור החדש, מכיוון שהם הצליחו למנוע את רוב הטעויות.
התחילו רחב, ואז צמצמו. אסטרטגיית חיפוש צריכה לשקף מחקר אנושי מומחה: חקרו את הנוף לפני שתעמיקו בפרטים ספציפיים. סוכנים נוטים לעיתים קרובות לפרומפטים ארוכים וספציפיים מדי המחזירים מעט תוצאות. התמודדנו עם נטייה זו על ידי הנחיית סוכנים להתחיל בפרומפטים קצרים ורחבים, להעריך את הזמין, ולאחר מכן לצמצם בהדרגה את המיקוד.
הנחו את תהליך החשיבה. מצב חשיבה מורחבת (Extended thinking mode), המוביל את קלוד להוציא טוקנים נוספים בתהליך חשיבה גלוי, יכול לשמש כלוח שרטוט (scratchpad) מבוקר. הסוכן הראשי משתמש בחשיבה כדי לתכנן את גישתה, להעריך אילו כלים מתאימים למשימה, לקבוע את מורכבות הפרומפט ומספר סוכני המשנה, ולהגדיר את תפקידו של כל סוכן משנה. הבדיקות שלנו הראו שחשיבה מורחבת שיפרה את יכולת העמידה בהוראות, החשיבה והיעילות. סוכני משנה גם מתכננים, ולאחר מכן משתמשים בחשיבה משולבת (interleaved thinking) לאחר קבלת תוצאות הכלים כדי להעריך איכות, לזהות פערים ולחדד את הפרומפט הבא שלהם. זה הופך את סוכני המשנה ליעילים יותר בהתאמה לכל משימה.
קריאת כלים מקבילה משנה מהותית את המהירות והביצועים. משימות מחקר מורכבות כוללות באופן טבעי חקירת מקורות רבים. הסוכנים המוקדמים שלנו ביצעו חיפושים עוקבים, שהיו איטיים בצורה כואבת. לשיפור המהירות, הצגנו שני סוגים של מקביליות: (1) הסוכן הראשי מפעיל 3-5 סוכני משנה במקביל ולא באופן סדרתי; (2) סוכני המשנה משתמשים ב-3+ כלים במקביל. שינויים אלו קיצרו את זמן המחקר בעד 90% עבור פרומפטים מורכבים, מה שמאפשר ל-Research לבצע יותר עבודה בדקות במקום בשעות, תוך כיסוי מידע רב יותר ממערכות אחרות.

אסטרטגיית הפרומפטים שלנו מתמקדת בהטמעת כללי אצבע (heuristics) טובים ולא בכללים נוקשים. למדנו כיצד בני אדם מיומנים ניגשים למשימות מחקר וקודדנו אסטרטגיות אלו בפרומפטים שלנו – אסטרטגיות כמו פירוק שאלות קשות למשימות קטנות יותר, הערכה מדוקדקת של איכות המקורות, התאמת גישות חיפוש על בסיס מידע חדש, והכרה מתי להתמקד בעומק (חקירת נושא אחד בפירוט) לעומת רוחב (חקירת נושאים רבים במקביל). כמו כן, צמצמנו באופן יזום תופעות לוואי בלתי רצויות על ידי קביעת מנגנוני הגנה מפורשים למניעת יציאת הסוכנים משליטה. לבסוף, התמקדנו בלולאת איטרציה מהירה עם יכולת תצפית (observability) ומקרי בדיקה.

הערכה אפקטיבית של סוכנים

הערכות טובות חיוניות לבניית יישומי AI אמינים, וסוכנים אינם יוצאי דופן. עם זאת, הערכת מערכות מרובות סוכנים מציגה אתגרים ייחודיים. הערכות מסורתיות מניחות לעיתים קרובות שה-AI עוקב אחר אותם צעדים בכל פעם: בהינתן קלט X, המערכת אמורה לעקוב אחר נתיב Y כדי לייצר פלט Z.

אבל מערכות מרובות סוכנים לא עובדות כך. גם עם נקודות התחלה זהות, סוכנים עשויים לנקוט בנתיבים תקפים שונים לחלוטין כדי להגיע ליעדם. סוכן אחד עשוי לחפש בשלושה מקורות בעוד שאחר מחפש בעשרה, או שהם עשויים להשתמש בכלים שונים כדי למצוא את אותה התשובה. מכיוון שאיננו יודעים תמיד מהם הצעדים הנכונים, בדרך כלל איננו יכולים פשוט לבדוק אם הסוכנים עקבו אחר הצעדים "הנכונים" שקבענו מראש. במקום זאת, אנו זקוקים לשיטות הערכה גמישות השופטות אם הסוכנים השיגו את התוצאות הנכונות תוך כדי עמידה בתהליך סביר.

התחילו להעריך מיד עם דגימות קטנות. בשלבי הפיתוח המוקדמים של סוכנים, לשינויים יש בדרך כלל השפעות דרמטיות מכיוון שיש שפע של "פירות נמוכים" קלים לקטיף. שינוי קל בפרומפט עשוי להעלות את שיעורי ההצלחה מ-30% ל-80%. עם גודל השפעה כה גדול, ניתן לזהות שינויים עם מספר קטן של מקרי בדיקה. התחלנו עם סט של כ-20 פרומפטים המייצגים דפוסי שימוש אמיתיים. בדיקת פרומפטים אלו אפשרה לנו לעיתים קרובות לראות בבירור את השפעת השינויים. אנו שומעים לעיתים קרובות שצוותי מפתחי AI מעכבים יצירת הערכות מכיוון שהם מאמינים שרק הערכות גדולות עם מאות מקרי בדיקה שימושיות. עם זאת, עדיף להתחיל בבדיקות בקנה מידה קטן מיד עם מספר דוגמאות, במקום לעכב עד שתוכלו לבנות הערכות יסודיות יותר.
הערכת LLM כשופט ניתנת להרחבה כשמבוצעת היטב. קשה להעריך תפוקות מחקר באופן תכנותי, מכיוון שהן טקסט חופשי ולעיתים רחוקות יש להן תשובה נכונה אחת. LLM מתאימים באופן טבעי לדירוג תפוקות. השתמשנו בשופט LLM שהעריך כל פלט מול קריטריונים במדד: דיוק עובדתי (האם טענות תואמות מקורות?), דיוק ציטוטים (האם המקורות המצוטטים תואמים את הטענות?), שלמות (האם כל ההיבטים המבוקשים מכוסים?), איכות המקור (האם השתמשו במקורות ראשוניים על פני מקורות משניים באיכות נמוכה יותר?), ויעילות כלים (האם השתמשו בכלים הנכונים מספר סביר של פעמים?). התנסנו עם שופטים מרובים כדי להעריך כל רכיב, אך מצאנו שקריאת LLM אחת עם פרומפט יחיד המפיק ציונים מ-0.0-1.0 וציון עובר-נכשל הייתה העקבית ביותר ותואמת להערכות אנושיות. שיטה זו הייתה יעילה במיוחד כאשר למקרי הבדיקה של ההערכה אכן הייתה תשובה ברורה, ויכולנו להשתמש בשופט ה-LLM כדי לבדוק בפשטות אם התשובה הייתה נכונה (כלומר, האם היא רשמה במדויק את חברות התרופות עם 3 תקציבי ה-R&D הגדולים ביותר?). שימוש ב-LLM כשופט איפשר לנו להעריך בצורה ניתנת להרחבה מאות תפוקות.
הערכה אנושית תופסת את מה שהאוטומציה מפספסת. אנשים הבודקים סוכנים מוצאים מקרים חריגים שהערכות אוטומטיות מפספסות. אלה כוללים הזיות בתשובות לפרומפטים לא רגילים, כשלים במערכת, או הטיות עדינות בבחירת מקורות. במקרה שלנו, בודקים אנושיים הבחינו שהסוכנים המוקדמים שלנו בחרו באופן עקבי חוות תוכן ממוטבות ל-SEO על פני מקורות סמכותיים אך בעלי דירוג נמוך יותר כמו קבצי PDF אקדמיים או בלוגים אישיים. הוספת כללי אצבע של איכות מקור לפרומפטים שלנו עזרה לפתור בעיה זו. גם בעולם של הערכות אוטומטיות, בדיקה ידנית נותרה חיונית.

למערכות מרובות סוכנים יש התנהגויות מתפתחות, הנוצרות ללא תכנות ספציפי. לדוגמה, שינויים קטנים בסוכן הראשי יכולים לשנות באופן בלתי צפוי את אופן פעולתם של סוכני המשנה. הצלחה דורשת הבנת דפוסי אינטראקציה, לא רק התנהגות סוכן פרטנית. לכן, הפרומפטים הטובים ביותר עבור סוכנים אלו אינם רק הוראות נוקשות, אלא מסגרות לשיתוף פעולה המגדירות את חלוקת העבודה, גישות לפתרון בעיות ותקציבי מאמץ. השגה נכונה של זה מסתמכת על הנדסת פרומפטים ועיצוב כלים קפדניים, כללי אצבע מוצקים, יכולת תצפית ולולאות משוב הדוקות. ראו את הפרומפטים בקוד פתוח בספר הבישול (Cookbook) שלנו לדוגמאות פרומפטים מהמערכת שלנו.

אמינות בייצור ואתגרים הנדסיים

בתוכנה מסורתית, באג עשוי לשבור תכונה, לפגוע בביצועים או לגרום להפסקות. במערכות סוכני, שינויים קלים משתקפים לשינויים התנהגותיים גדולים, מה שהופך את כתיבת הקוד לסוכנים מורכבים, שחייבים לשמור על מצב בתהליך ארוך טווח, למאתגרת במיוחד.

סוכנים שומרים מצב ושגיאות מצטברות. סוכנים יכולים לרוץ למשך פרקי זמן ארוכים, תוך שמירה על מצב (state) על פני קריאות כלים רבות. המשמעות היא שעלינו לבצע קוד באופן עמיד ולטפל בשגיאות לאורך הדרך. ללא אמצעי מיתון יעילים, כשלים קלים במערכת עלולים להיות קטסטרופליים עבור סוכנים. כאשר מתרחשות שגיאות, איננו יכולים פשוט להתחיל מחדש: הפעלות מחדש יקרות ומתסכלות עבור המשתמשים. במקום זאת, בנינו מערכות שיכולות לחדש מהמקום שבו הסוכן היה כאשר התרחשו השגיאות. אנו משתמשים גם באינטליגנציה של המודל כדי לטפל בבעיות בחן: לדוגמה, יידוע הסוכן כאשר כלי נכשל ומתן אפשרות לו להסתגל עובד היטב באופן מפתיע. אנו משלבים את יכולת ההסתגלות של סוכני AI הבנויים על Claude עם אמצעי הגנה דטרמיניסטיים כמו לוגיקת ניסיונות חוזרים (retry logic) ונקודות בקרה קבועות (checkpoints).
איתור באגים נהנה מגישות חדשות. סוכנים מקבלים החלטות דינמיות ואינם דטרמיניסטיים בין הפעלות, גם עם פרומפטים זהים. זה הופך את איתור הבאגים לקשה יותר. לדוגמה, משתמשים היו מדווחים על סוכנים ש"לא מוצאים מידע ברור", אך לא יכולנו לראות מדוע. האם הסוכנים השתמשו בפרומפטים חיפוש גרועים? בחרו מקורות גרועים? נתקלו בכשלי כלים? הוספת מעקב מלא בייצור (full production tracing) איפשרה לנו לאבחן מדוע סוכנים נכשלו ולתקן בעיות באופן שיטתי. מעבר ליכולת תצפית סטנדרטית, אנו מנטרים דפוסי החלטות של סוכנים ומבני אינטראקציה – כל זאת מבלי לנטר את תוכן השיחות האישיות, כדי לשמור על פרטיות המשתמש. יכולת תצפית ברמה גבוהה זו עזרה לנו לאבחן גורמי שורש, לגלות התנהגויות בלתי צפויות ולתקן כשלים נפוצים.
פריסה דורשת תיאום קפדני. מערכות סוכנים הן רשתות מורכבות ושומרות מצב (stateful) של פרומפטים, כלים ולוגיקת ביצוע הפועלות כמעט ברציפות. המשמעות היא שבכל פעם שאנו פורסים עדכונים, סוכנים עשויים להיות בכל מקום בתהליך שלהם. לכן עלינו למנוע משינויי הקוד בעלי הכוונות הטובות שלנו לשבור סוכנים קיימים. איננו יכולים לעדכן כל סוכן לגרסה החדשה בו-זמנית. במקום זאת, אנו משתמשים ב-פריסות ריינבו (rainbow deployments) כדי למנוע שיבוש סוכנים פועלים, על ידי העברת תעבורה הדרגתית מגרסאות ישנות לחדשות תוך שמירה על הפעלת שתיהן בו-זמנית.
ביצוע סינכרוני יוצר צווארי בקבוק. כרגע, הסוכנים הראשיים שלנו מבצעים סוכני משנה באופן סינכרוני, וממתינים שכל סט של סוכני משנה ישלים לפני שהם ממשיכים. זה מפשט את התיאום, אך יוצר צווארי בקבוק בזרימת המידע בין סוכנים. לדוגמה, הסוכן הראשי אינו יכול להנחות סוכני משנה, סוכני משנה אינם יכולים לתאם, והמערכת כולה יכולה להיות חסומה בזמן ההמתנה לסיום חיפוש של סוכן משנה בודד. ביצוע אסינכרוני יאפשר מקביליות נוספת: סוכנים שיעבדו במקביל וייצרו סוכני משנה חדשים בעת הצורך. אך אסינכרוניות זו מוסיפה אתגרים בתיאום תוצאות, עקביות מצב (state consistency) והפצת שגיאות בין סוכני המשנה. ככל שהמודלים יוכלו להתמודד עם משימות מחקר ארוכות ומורכבות יותר, אנו מצפים ששיפורי הביצועים יצדיקו את המורכבות.

סיכום

בבניית סוכני AI, "המייל האחרון" הופך לעיתים קרובות לחלק הארי של המסע. בסיסי קוד הפועלים על מכונות מפתחים דורשים הנדסה משמעותית כדי להפוך למערכות ייצור אמינות. האופי המצטבר של שגיאות במערכות סוכני פירושו שבעיות קלות עבור תוכנה מסורתית יכולות להסיט סוכנים לחלוטין. כשל בשלב אחד יכול לגרום לסוכנים לחקור מסלולים שונים לחלוטין, מה שמוביל לתוצאות בלתי צפויות. מכל הסיבות המתוארות בפוסט זה, הפער בין אב טיפוס לייצור רחב לעיתים קרובות מהצפוי.

למרות אתגרים אלו, מערכות מרובות סוכנים הוכחו כיעילות למשימות מחקר פתוחות. משתמשים דיווחו ש-Claude עזר להם למצוא הזדמנויות עסקיות שלא שקלו קודם, לנווט באפשרויות שירותי בריאות מורכבות, לפתור באגים טכניים סבוכים, ולחסוך עד ימים של עבודה על ידי חשיפת קשרי מחקר שלא היו מוצאים לבד. מערכות מחקר מרובות סוכנים יכולות לפעול באופן אמין בקנה מידה רחב עם הנדסה קפדנית, בדיקות מקיפות, עיצוב פרומפטים וכלים מדוקדק, שיטות תפעול חזקות, ושיתוף פעולה הדוק בין צוותי המחקר, המוצר וההנדסה שיש להם הבנה חזקה של יכולות הסוכן הנוכחיות. אנו כבר רואים כיצד מערכות אלו משנות את האופן שבו אנשים פותרים בעיות מורכבות.

תודות

נכתב על ידי ג'רמי הדפילד (Jeremy Hadfield), בארי ז'אנג (Barry Zhang), קנת לין (Kenneth Lien), פלוריאן שולץ (Florian Scholz), ג'רמי פוקס (Jeremy Fox) ודניאל פורד (Daniel Ford). עבודה זו משקפת את המאמצים המשותפים של מספר צוותים ברחבי Anthropic שאפשרו את תכונת ה-Research. תודה מיוחדת מגיעה לצוות ההנדסה של אפליקציות Anthropic, שמסירותו הביאה את המערכת המורכבת מרובת הסוכנים הזו לייצור. אנו אסירי תודה גם למשתמשים המוקדמים שלנו על המשוב המצוין שלהם.

נספח

להלן מספר טיפים נוספים ושונים עבור מערכות מרובות סוכנים.

הערכת מצב סופי של סוכנים המשנים מצב על פני פניות רבות. הערכת סוכנים המשנים מצב מתמשך על פני שיחות מרובות פניות מציגה אתגרים ייחודיים. בניגוד למשימות מחקר לקריאה בלבד, כל פעולה יכולה לשנות את הסביבה עבור הצעדים הבאים, וליצור תלויות ששיטות הערכה מסורתיות מתקשות לטפל בהן. מצאנו הצלחה בהתמקדות בהערכת מצב סופי במקום ניתוח פנייה אחר פנייה. במקום לשפוט אם הסוכן עקב אחר תהליך ספציפי, העריכו אם הוא השיג את המצב הסופי הנכון. גישה זו מכירה בכך שסוכנים עשויים למצוא נתיבים חלופיים לאותה מטרה, תוך שהיא עדיין מבטיחה שהם מספקים את התוצאה המיועדת. עבור תהליכי עבודה מורכבים, פרקו את ההערכה לנקודות בקרה דיסקרטיות שבהן שינויים ספציפיים במצב היו אמורים להתרחש, במקום לנסות לאמת כל שלב ביניים.
ניהול שיחות ארוכות טווח. סוכני ייצור עוסקים לעיתים קרובות בשיחות הנפרסות על פני מאות פניות, הדורשות אסטרטגיות קפדניות לניהול הקשר. ככל שהשיחות מתארכות, חלונות הקשר סטנדרטיים הופכים לבלתי מספקים, מה שמצריך מנגנוני דחיסה וזיכרון חכמים. יישמנו דפוסים שבהם סוכנים מסכמים שלבי עבודה שהושלמו ואוגרים מידע חיוני בזיכרון חיצוני לפני שהם ממשיכים למשימות חדשות. כאשר גבולות ההקשר מתקרבים, סוכנים יכולים להפעיל סוכני משנה חדשים עם הקשרים נקיים תוך שמירה על רציפות באמצעות העברות זהירות. יתר על כן, הם יכולים לשלוף הקשר שמור כמו תוכנית המחקר מזיכרונם במקום לאבד עבודה קודמת כאשר מגיעים למגבלת ההקשר. גישה מבוזרת זו מונעת גלישת הקשר תוך שמירה על לכידות השיחה על פני אינטראקציות מורחבות.
פלט סוכני משנה למערכת קבצים כדי למזער את "משחק הטלפון". פלטים ישירים של סוכני משנה יכולים לעקוף את המתאם הראשי עבור סוגי תוצאות מסוימים, ובכך לשפר הן את הדיוק והן את הביצועים. במקום לדרוש מסוכני משנה לתקשר הכל דרך הסוכן הראשי, יישמו מערכות Artifacts שבהן סוכנים מומחים יכולים ליצור פלטים הנשמרים באופן עצמאי. סוכני משנה קוראים לכלים כדי לאחסן את עבודתם במערכות חיצוניות, ולאחר מכן מעבירים הפניות קלות משקל בחזרה למתאם. זה מונע אובדן מידע במהלך עיבוד רב-שלבי ומפחית תקורה של טוקנים מהעתקת פלטים גדולים דרך היסטוריית השיחה. דפוס זה עובד היטב במיוחד עבור פלטים מובנים כמו קוד, דוחות או הדמיות נתונים שבהם הפרומפט המיוחד של סוכן המשנה מפיק תוצאות טובות יותר מאשר סינון דרך מתאם כללי.