מחקר חדש חושף פרצת אבטחה קריטית בסוכני AI מבוססי שפה: האקרים יכולים להחדיר זיכרונות מזויפים ולהטות את פעולותיהם
חוקרים מדגימים שיטה חדשה לתקיפת סוכני שפה גדולים (LLM) על ידי החדרת רשומות זדוניות לזיכרון שלהם, מה שמוביל לפעולות לא רצויות
סוכני בינה מלאכותית (AI) מבוססי מודלים גדולים של שפה (LLM) הראו יכולות מרשימות במגוון רחב של יישומים מורכבים בעולם האמיתי. עם זאת, מחקר חדש מגלה פרצת אבטחה חמורה המאפשרת להאקרים להשתלט על סוכני AI על ידי פגיעה בבנק הזיכרון שלהם.
המחקר, שפורסם לאחרונה בכתב העת arXiv, מציג שיטת תקיפה חדשה בשם MINJA (Memory INJection Attack). MINJA מאפשרת להחדיר רשומות זדוניות לבנק הזיכרון של הסוכן באמצעות אינטראקציה רגילה - שליחת שאילתות וקבלת תצפיות על פלט. רשומות זדוניות אלו נועדו לעורר רצף של צעדי חשיבה זדוניים, המובילים לפעולות לא רצויות מצד הסוכן בעת ביצוע שאילתה של משתמש תמים.
החוקרים מסבירים כי התוקף מחדיר רשומות זדוניות המכילות "צעדי גישור" המקשרים בין שאילתת הקורבן לבין צעדי החשיבה הזדוניים. במהלך החדרת הרשומה הזדונית, נעשה שימוש בהנחיית אינדיקציה כדי להנחות את הסוכן ליצור באופן אוטונומי את צעדי הגישור המתוכננים. בנוסף, מוצעת אסטרטגיית קיצור הדרגתית המסירה בהדרגה את הנחיית האינדיקציה, כך שהרשומה הזדונית תשוחזר בקלות בעת עיבוד שאילתת הקורבן.
הניסויים המקיפים שנערכו במספר סוכני AI שונים הוכיחו את האפקטיביות של MINJA בפגיעה בזיכרון הסוכן. עם דרישות ביצוע מינימליות, MINJA מאפשרת לכל משתמש להשפיע על זיכרון הסוכן, ובכך מדגישה את הסיכונים המעשיים הטמונים בסוכני LLM.
ההשלכות של ממצאים אלה הן מרחיקות לכת. סוכני AI נמצאים בשימוש גובר בתחומים רגישים כמו נהיגה אוטונומית, פיננסים ובריאות. אם ניתן להחדיר זיכרונות מזויפים לסוכנים אלה, הם עלולים לקבל החלטות שגויות או מזיקות שעלולות לגרום לפגיעה פיזית או הפסדים כספיים.
המחקר מדגיש את הצורך הדחוף בפיתוח אמצעי הגנה חזקים כדי להגן על סוכני AI מפני התקפות הזרקת זיכרון. החוקרים מציעים מספר אסטרטגיות פוטנציאליות, כולל סניטציה מבוססת זיכרון ושיטות לזיהוי וחסימה של רשומות זדוניות.
ככל שסוכני AI הופכים נפוצים יותר, הבטחת האבטחה והאמינות שלהם היא חיונית. מחקר זה משמש תזכורת לכך שאפילו מערכות הבינה המלאכותית המתקדמות ביותר פגיעות להתקפות, ויש צורך במחקר ופיתוח מתמשכים כדי להגן עליהן.