הגנה בסייבר באמצעות רשתות עצביות מלאכותיות

bigstockphoto.com

פתרון זיהוי הפוגענים של חברת Deep Instinct מבוסס על רשתות עצביות מלאכותיות (Artificial Neural Network) שלומדות קבצים ומסוגלות לספק תשובה האם קובץ מסוים מכיל פוגען. רשתות אלו מבוססות על מעבדים גרפיים מסוג GPU המסוגלים לבצע הרבה חישובים בזמן קצר.  

"התחלנו את פיתוח המוצר לפני כשנתיים וחצי. לפני חצי שנה התחלנו עם POC למוצר מסחרי, והיום יש לנו כבר מוצר מסחרי. הוא מותקן בכמה חברות מהגדולות בעולם. המטרה של המוצר היא לזהות פוגענים חדשים בסייבר.", מסביר ד"ר אלי דויד ה-CTO של החברה.
"רשתות נוירוניות אלו רשתות שמחקות את המוח האנושי. למידה עמוקה (Deep learning) היא תת תחום חדש יחסית של לימוד מכונה. ההבדל הגדול ביניהם טמון ביכולת של המערכת הממוחשבת ללמוד לבד."

לימוד מכונה - הדור החדש

דויד מסביר כי תחום לימוד המכונה הקלאסי מבוסס על השוואה בין מאפיינים. כדי שהמוח הממוחשב יזהה הבדלים, צריך לקחת את הנתונים הגולמיים, לסווג אותם בצורה ידנית למאפיינים של המידע, ואז לתת למוח הממוחשב ללמוד את המאפיינים. בלמידה עמוקה, המוח הממוחשב יודע לקחת את הנתונים הגולמיים וללמוד מהם לבד, בעצמו, ללא עזרה אנושית.

"ניקח לדוגמא תרחיש שבו רוצים שמערכת ממוחשבת תזהה האם יש חתול בתמונה. בלימוד מכונה קלאסי אי אפשר לקחת את הפיקסלים הגולמיים של התמונה ולהכניס למוח הממוחשב. צריך לעשות עיבוד מוקדם. לחלץ מאפיינים של חתול מהנתונים הגולמיים בצורה ידנית, ואת זה מכניסים למודול למידה קלאסי.", מסביר דויד. "ככה הוא לומד מה זה חתול. לפי המאפיינים שהאנליסט האנושי קבע לו.

"זה תהליך בעייתי. כאשר לוקחים מידע גולמי בדמות מליונים פיקסלים ומתרגמים אותו לרשימת מאפיינים קצרה יחסית - מאבדים נתונים. יתרה מכך, צריך גם לקחת בחשבון שאנליסטים אנושיים תופסים רק חלק מהנתונים. כלומר ההטיה של האדם מועברת למוח הממוחשב. 

"בלמידה עמוקה לוקחים תמונה, מפרקים אותה לרשת פיקסלים, ואת זה מזינים למוח הממוחשב. רשת הפיקסלים עוברת כמה שכבות ניתוח ובסוף יוצאת תוצאה אם יש או אין חתול בתמונה. בשיטה זו, המוח הממוחשב לומד לבד מה זה חתול לפי ניתוח של מליוני תמונות עם ובלי חתול. זה תהליך שדורש כיול מסוים בתוצאה. אבל הליך הלימוד נעשה אוטונומית על ידי המוח הממוחשב. מדובר במערכת מדויקת מאד שהיא קפיצה אדירה ביכולות מערכות לימוד מכונה."

לפי דויד, הבעיה הכי קשה בראייה ממוחשבת היא לסווג הרבה אובייקטים בתוך תמונה אחת. "בני אדם יודעים לזהות 95 אחוזים מאובייקטים בתמונה. עד היום, למידת מכונה קלאסית הצליחה להגיע ל-75 אחוזי דיוק. מערכות למידה עמוקה עומדות על 97 אחוזי דיוק. יותר מבני אדם. היום מחשב רואה ומזהה אובייקטים יותר טוב מבני אדם. כך גם בזיהוי טקסט וקול."

חסם כניסה גבוה לעולם הסייבר

חברת Deep Instinct היא הראשונה שנכנסה עם למידה עמוקה לתחום הסייבר. דויד מסביר שיש חסם כניסה גבוה מאד לתחום הלימוד העמוק. החסם נובע ממיעוט כוח אדם בתחום. עלויות גדולות להקמת תשתית מחשוב מבוססת GPUים, וזמן. "גם מי שיש לו כסף וכוח אדם מקצועי, ייקח לו כשלוש שנים להגיע עם מוצר עובד לתחום ההגנה בסייבר", אומר דויד. "יש מעט קבוצות בעולם שעוסקות בזה שפיתחו תשתיות שלהן. לפתח תשתית כזו זה לא פשוט בכלל.

"אצלנו אימון של המערכת לוקח כ-24 שעות על תשתית של שמונה GPU. אם היינו עושים זאת על 32 CPU, זה היה לוקח שלושה חודשים. יש אמנם תשתיות אקדמאיות, אבל אלו טובות למחקר אקדמאי. יש תחומים שהן יעילות, כמו ראייה ממוחשבת. אבל בתחומים אחרים כמו הסייבר זה לא רלוונטי.

"יבמ, גוגל, ואינטל קנו או הקימו לבד תשתיות כאלו בשנים האחרונות, אף אחת לא לעולם הסייבר. אנחנו פיתחנו לבד את התשתית ונכנסנו לתחום הסייבר. ב-2014 היינו החברה היחידה בעולם. גם היום אנחנו היחידים בעולם בתחום הסייבר שעושים למידה עמוקה.

"התשתית שלנו מאפשרת להפוך כל סוג של קובץ לבייטים, ולהכניס אותו לתשתית ללימוד המכונה. יש לנו קרוב למיליארד קבצים של פוגענים וכאלו בלי פוגענים. בלימוד אנחנו משתמשים במאה מליון קבצים מכל סוג, עם ובלי פוגען, כדי ללמד את המערכת. לאחר תהליך הלימוד, המערכת יודעת להבדיל. 'המוח' שיוצא לזיהוי כל פוגען הוא כ-20 מגה. את המוח הזה מעדכנים בקליינט שלנו שמותקן על המכשיר, ומאותו רגע הוא יודע לזהות את הפוגען ונגזרות שלו שנראות כמוהו. הזיהוי של קובץ מזוהם לוקח כמה מילי-שניות.

"תחת הכותרת של הגנת APT, מרבית המוצרים עושים ניתוח דינמי של התנהגות. יש גם מספר מוצרים שעושים ניתוח סטטי של קובץ. לוקח להם כמה שניות לתת תוצאה. אצלנו זמן התגובה הוא במילי-שניות.

"עד היום עשינו עשרות POC בצפון אמריקה. בחברות הגדולות האלו הלקוח רוצה לראות שהמוצר עובד, שאתה מנצל מעט זיכרון ו-CPU ואחר כך הוא רוצה שתגלה פוגענים שהוא מכיר ותראה כמה אתה תופס וכמה התרעות שווא יש לך. כמעט בכל אחד מה-POC זיהינו לפחות פוגען אחד מאד משמעותי בלב הארגון שהוא לא ידע עליו. חלק מהניסויים בוצעו גם בבנקים הגדולים בעולם. "

פספסתם משהו עד היום?

"עד עכשיו לא היה לנו מקרה שפספסנו משהו. אם זה יקרה, זה לא יפתיע אותי.", אומר דויד. "אף אחד לא מבטיח מאה אחוזים זיהוי. כל יום יש בעולם מליוני פוגענים חדשים. כמו גם, התוקפים משתמשים בלמידה עמוקה כדי לעקוף אותה. ללמוד את גבולות היכולת שלה.

"יש למשל שיטות בתחום ראייה ממוחשבת שבהן משתמשים בלמידה עמוקה כדי לעקוף מערכות כאלו. גם בסייבר זה אפשרי, אבל מסובך כי אתה בסוף הדרך צריך לייצר קובץ שירוץ במחשב היעד. צריך לזכור שברגע שמערכת למידה עמוקה יודעת איך נראה קובץ במחשב, קשה לעקוץ אותה. כדי להבין את היכולות, תדמיינו שזו מערכת שאחרי שמלמדים אותה מהו בקבוק מים, היא תדע לזהות בקבוק כזה גם אם חופנים אותו ביד מלאה, ורק חלקים ממנו נראים."

img
פרשנות | כוח צבאי משמעותי של נאט״ו יכול להקטין הסתברות למלחמה גרעינית באירופה
דעה | אופציה צבאית ישראלית תוכל לרסן את איראן 
קבוצת SQLink רוכשת את ZIGIT הישראלית
קבוצת SQLink רוכשת את ZIGIT הישראלית