לקראת הבחירות בארה"ב: בטיחות AI חזיתית
שנת 2024 מציינת את מחזור הבחירות הראשון בארצות הברית (ארה"ב) שבו כלי AI גנרטיביים זמינים באופן נרחב לציבור הרחב. כבר מיולי 2023, נקטה אנתרופיק בצעדים קונקרטיים במטרה לסייע בזיהוי וצמצום השימוש לרעה הפוטנציאלי בכלים שלה, וכן להפנות משתמשים למידע אמין ומוסמך בנוגע לבחירות. לקראת הבחירות הפדרליות, המדינתיות והמקומיות בארה"ב ב-5 בנובמבר 2024, אנו מפרסמים סיכום של עבודתנו עד כה.
גישת המדיניות שלנו: מה מותר ומה אסור
בחודש מאי, עדכנו את מדיניות השימוש (Usage Policy) שלנו על מנת לספק בהירות לגבי שימושים אסורים בכל הנוגע לבחירות והצבעה:
- איסור קמפיינים ולובינג: אנו אוסרים את השימוש במוצרינו לקמפיינים פוליטיים ולפעילויות לובינג. על פי המדיניות שלנו, Claude אינו יכול לשמש לקידום מועמד, מפלגה או נושא ספציפי; לקמפיינים פוליטיים ממוקדים; או לגיוס קולות או תרומות כספיות.
- מאבק בהפצת מידע כוזב והתערבות בבחירות: אנו אוסרים את השימוש במוצרינו ליצירת מידע כוזב על חוקי בחירות, מועמדים ונושאים קשורים אחרים. בנוסף, אנו לא מתירים שימוש ב-Claude למיקוד מכונות הצבעה או לשיבוש ספירת קולות או אישור תוצאות.
- הגבלת תפוקות לטקסט בלבד: Claude אינו יכול לייצר תמונות, קטעי אודיו או וידאו, מה שמבטל את הסיכון לדיפ-פייקים (deepfakes) הקשורים לבחירות.
פיתחנו גם כלים משופרים לזיהוי התנהגות מתואמת או שימוש לרעה אחר במערכות שלנו הקשור לבחירות:
- אכיפה קפדנית: כדי לזהות ולמנוע שימוש לרעה, אנו פורסים מערכות אוטומטיות לאכיפת המדיניות שלנו ומבצעים ביקורות אנושיות על מערכות אלה. אנו משתמשים במגוון שיטות כדי לצמצם שימוש לרעה, לרבות:
- מינוף שינויים ב-prompt ב-claude.ai.
- ביקורת על מקרי שימוש ב-API הישיר שלנו.
- במקרים קיצוניים, השעיית חשבונות.
- עבודה צמודה עם Amazon Web Services (AWS) ו-Google Cloud Platform (GCP) לזיהוי וצמצום נזקים הקשורים לבחירות מצד משתמשים הניגשים למודלים של אנתרופיק בפלטפורמות אלו.
הערכה וליטוש ההתערבויות שלנו
אנו עורכים באופן קבוע Red Teaming ממוקד כדי לבחון כיצד המערכות שלנו מגיבות לפרומפטים הקשורים לנושאי בחירות.
- בדיקות פגיעות מתמשכות: אנו משתמשים בבדיקות מעמיקות, הנערכות בשיתוף פעולה עם מומחי תוכן חיצוניים, המכונות בדיקת פגיעות מדיניות (Policy Vulnerability Testing - PVT), כדי לזהות סיכונים פוטנציאליים. אנו מתמקדים במידע כוזב, הטיה ושימוש לרעה עוין, על ידי זיהוי שאלות רלוונטיות (לדוגמה, שאלה היכן וכיצד ניתן להצביע בבחירות בארה"ב), תיעוד תגובות המודל, וציון נוכחות של "התערבויות בטיחות", כמו סירוב לענות על שאלות מזיקות.
- מניעת מידע כוזב בקנה מידה רחב: בנינו הערכות אוטומטיות לבדיקת המערכות שלנו בקנה מידה רחב למגוון סיכונים הקשורים לבחירות ולהערכת יעילות ההתערבויות שלנו. אלו כוללות דרכים לבדיקת:
- שוויון פוליטי בתגובות המודל בין מועמדים ונושאים שונים.
- המידה שבה המערכות שלנו מסרבות להגיב לשאילתות מזיקות בנוגע לבחירות.
- עד כמה המערכות שלנו חזקות במניעת מידע כוזב וטקטיקות פרופילאינג של בוחרים.
- שיפור הבקרות שלנו: בתגובה לממצאים, אנו מתאימים באופן מתמיד את המדיניות שלנו, מחזקים את תהליכי האכיפה ועורכים שיפורים טכניים במודלים עצמם כדי לטפל בסיכונים שזוהו ולהפוך את המערכות שלנו לחזקות יותר.
מידע מדויק ושקיפות מלאה
מכיוון שהמודלים שלנו אינם מאומנים בתדירות מספקת כדי לספק מידע בזמן אמת על בחירות, אנו מפנים משתמשים למידע הצבעה מדויק, עדכני ומוסמך עבור שאילתות הקשורות לבחירות.
- הפניה למידע הצבעה אמין: יישמנו חלון קופץ המעניק למשתמשים את האפשרות להיות מופנים ל-TurboVote (מקור בלתי-מפלגתי מבית Democracy Works) אם הם מבקשים מידע על הצבעה. לאחרונה, TurboVote עודכן וכלל את שמות כל המועמדים המתמודדים בבחירות הפדרליות והמדינתיות, וכן הצעות חוק להצבעה.
- התייחסות ל'תאריך חיתוך הידע' של המודל: עדכנו גם את ה-System Prompt של Claude כך שיכלול התייחסות ברורה לתאריך חיתוך הידע שלו (התאריך עד אליו מגיעים נתוני האימון של Claude).
- שיתוף תובנות: כדי לסייע לאחרים לשפר את מאמציהם לשמירה על טוהר בחירות ולהוביל לתוצאות בטיחות טובות יותר בתעשייה, שחררנו חלק מההערכות האוטומטיות שפיתחנו והשקנו יוזמה למימון הערכות צד שלישי המודדות ביעילות יכולות וסיכוני AI.
לאורך השנה, נפגשנו עם קובעי מדיניות גלובליים, ארגוני חברה אזרחית, וגורמים אחרים בתעשייה כדי לדון בעבודתנו בנושא בחירות ולעדכן את מאמצינו. עסקנו גם בתכנון תרחישים יזום כדי להיערך טוב יותר לשימוש לרעה פוטנציאלי הקשור לבחירות לקראת יום הבחירות בארה"ב.
איננו יכולים לצפות כל דרך שבה אנשים עשויים להשתמש במודלים שלנו בהקשר לבחירות, אך אנו לומדים ונמשיך ללמוד ולחזור על תהליכינו, בודקים ומשפרים את המערכות שלנו לאורך כל הדרך.



