זיהוי אויב אוטומטי

האם מאות או אלפי הסנסורים שיפוזרו בשדה הקרב העתידי ידעו לאותת על סכנה באופק? פרופסור אסף שוסטר מהטכניון מסביר איך מתריעים על אויב מתקרב באמצעות פונקציות מתמטיות. ראיון מיוחד

(shutterstock.com)

איך עושים היתוך מידע מבוזר, בזמן אמת, ממספר מקורות מידע שונים (סנסורים) שיכולים להיות פזורים במקומות שונים גיאוגרפית? על השאלה הזו מנסים לענות פרופסור אסף שוסטר והצוות שלו מהפקולטה למדעי המחשב בטכניון. "אלו סנסורים ברמות שונות שאוספים נתונים שונים ואתה צריך איזשהי שכבה שאוספת את כל המידע, עושה לו היתוך ומוציאה ממנו החלטה. אם היה או לא היה אירוע", מסביר פרופסור שוסטר. "תסתכל לדוגמא על מערכת צי"ד או פתרונות אחרים. אנשים מסתובבים עם איזה כלי קטן מלא סנסורים ביד, על הגב או על הנגמ"ש וכל הסנסורים האלה כל הזמן חשים את הסביבה ואוספים מידע. מדובר על סנסורים שאוספים מידע איכותי ויכולים לעשות עליו עיבוד ראשוני. אבל כנראה שהעיבוד הראשוני של כל סנסור כזה הוא עיבוד יחסית פרימיטיבי".

"המידע שסנסורים כאלה קולטים מלווה בהרבה רעש מהסביבה, ואז אתה רוצה לסנכרן את מה שהם קולטים עם סנסורים דומים או שונים ליד. אתה רוצה לגלות אינדיקציות שמבוססות על נתונים מנקודות גאוגרפיות שונות או במיקומים שונים, גם אם הם שונים במטר אחד. בשביל זה צריך להיות משהו שירכז את הנתונים האלה מכולם, יעבד אותם ויעשה היתוך מידע".

מהיתוך מידע - להחלטה

במציאות של היום, רוב האינדיקציות שמתקבלות מהסנסורים השונים, למשל כשיש בירור לגבי חוליית אויב באותו אזור בו מוצב גדוד מסויים, הן אינדיקציות שמלוות ברעש מאוד גדול. אם רוצים לדעת שיש איום של חוליה על אותו גדוד, צריך היתוך מידע בזמן אמת שיביא להחלטה מיידית. במקרה כזה, אם אין אפשרות החלטה מיידית, זה כבר לא רלוונטי. "להוציא ולעבד את המידע למחרת היום ולהגיד 'כן איימו עליכם אתמול', זה כבר לא רלוונטי. לכן, ההיתוך צריך להעשות באותו מקום שאיסוף האינפורמציה קורה, איפה שהסנסור נמצא", מסביר פרופסור שוסטר.

"אני לא מדבר על סגירת מעגלים שזה טכנולוגיה נפרדת, אלא על ההחלטה אם יש או אין איום. בעיה נוספת זה רוחב הפס של העלאה והורדה שקיימת בכל אחד מהסנסורים. היות והוא תלוי טכנולוגיה שהייתה בזמן שתיכננו את המכשיר, מדובר על רוחב פס מאוד קטן. צריך לזכור שאלה סנסורים מאוד מפותחים שדוגמים מידע שאנו קוראים לו 'מידע עשיר'. אם זו תמונה, אתה יכול לדגום מגה פיקסל 30 פעמים בשניה, איך תעביר את זה כשיש לך 30 קילובייט שיוצאים מהמכשיר?

"בדרך כלל היחס בין העלאה להורדה הוא מאוד גדול בגלל שהמכשירים האלה לא תוכננו להוציא הרבה מידע, אלא לקבל. כלומר, אפילו אם הסנסור מסוגל להפיק הרבה מידע בזמן אמיתי, הוא לא מסוגל לתקשר עם המכשירים האחרים בשטח בזמן אמיתי ולהעביר להם את כולו. אחד הפרוטוקולים שאפשר לחשוב עליהם כדרך לפתרון הוא ה- BitTorrent. זו רשת P2P שכשיש לך מידע אז כל השכנים שלך יודעים זאת ואתה מעביר להם מידע והם חזרה אליך. יחד עם זאת, כאן יש בעיה יותר קשה כי ביטטורנט בדרך כלל יושב על ערוצי תקשורת מאוד רחבים והוא משמש להעברת סרטים למשל. כאן מדובר על סרטים שעובדים כל הזמן, ולכן מדובר על בעיה כפולה ומכופלת".

בעיות תקשורת

בעיית התקשורת מקבלת משנה תוקף לא רק בגלל התווך הצר, אלא גם בשל העובדה שרוחב הפס משמש במרבית המקרים גם לשימושים אחרים. "אפילו אם היה לך קו תקשורת מאוד רחב, אתה משתף אותו עם הרבה צרכים אחרים. לא רק הסנסור יושב על מכשיר, אלא עוד הרבה פרוטוקולים שונים. לפעמים צריך להוריד תמונה של איומים צבאיים שמגיעה ממכשירים אחרים והקו לא נתון לשימושך תמיד. לכן השאלה היא כמה מתוך הקו מנצלים לצורך היתוך המידע", אומר פרופסור שוסטר.

"נניח שהרבה מהקו תפוס לצורך העברת מידע לגורם מרכזי שיכול להתך את המידע בזמן קצר מהרגע שהתחילו להיות אינדיקציות והוא יכול לקבל החלטה. במצב כזה הרבה מקו התקשורת מנוצל, אבל מצד שני לוקח החלטות יותר מיידית. השיהוי מהרגע שיש אינדיקציה ועד הרגע שבו מתקבלת ההחלטה יותר קטן. מצד שני אתה מנצל רוחב פס יותר גדול וזה בה על חשבון שימושים אחרים. אנשים אמרו – אנחנו נדגום את השטח כל חמש דקות, דקה או שניה, אבל זה מצב שאתה מקבל נפח מאוד גדול של מידע, אבל מנצל הרבה משאבים. המצב ההפוך הוא שאתה מנצל פחות משאבים, אבל נפח המידע יותר קטן".

המטרה של המחקר שמבצעים בטכניון היא לפתח שיטות לניצול רוחב הפס בצורה מסתגלת (אדפטיבית). ברגע שיש אינדיקציות מקומיות שהן יותר חשובות, מעלים את רמת העדיפות של הסנסור או הסנסורים ומנצלים יותר רוחב פס כדי לקבל תשובה יותר מהירה.

"צריך לפתח פרוטוקול מבוזר שירוץ על כל הכלים הרלוונטים בשטח. הכלי צריך לדעת שהאינפורמציה שלו מספיק חשובה כדי לקבל יותר רוחב פס לניצול והכל צריך להיות אוטומטי לגמרי. אנחנו לוקחים כל איום ומפרקים אותו לתנאים מקומיים עבור כל אחד מהמשתתפים בתא השטח, והתנאים מותאמים לאותו מכשיר. בדיקת התנאי היא לא דבר שלוקח הרבה משאבים והיא מתבצעת כל הזמן וכל עוד שהתנאי לא מתקיים אין צורך בתקשורת לאותו מכשיר אלא אם הוא מקבל בקשה בגלל סנסורים אחרים", מסביר פרופסור שוסטר .

                                                                           [shutterstock.com]

התמודדות עם מידע מבוזר

דוגמא להיתוך מידע מבוזר היא מצב שבו קבוצה של שני אנשים רוצה לוודא שכמות הכספים בארנקים של כולם לא יורדת מ-100 ש"ח. אפשרות אחת היא להתריע כאשר הסכום של כל אחד יורד מתחת לחמישים ש"ח. כל עוד זה לא יורד אין צורך בתקשורת, אבל אף אחד מהצדדים לא יודע כמה יש לשני עד שלא יורד מתחת לחמישים. למרות זאת, שני הצדדים לא מתקשרים כי קיים ידע מספיק טוב. זה תנאי שמשותף לשני הצדדים.

אם רוצים לשכלל את התנאי, אפשר להניח שכמות הכסף שיש לצד אחד בארנק היא יותר גדולה מהצד השני. במקרה כזה מייצרים תנאי שלצד אחד יש יותר מ-80 ואצל האחר יותר מ-20 וזה אותו שילוב כמו עם ה-50 אצל שניהם, אלא שכך מורידים את כמות הפעמים שצריך ליצור תקשורת בין הצדדים.

"ב-2006 בעקבות עבודה עם מסטרנט שלי בשם צחי שפמן ופרופסור דני קרן מאוניברסיטת חיפה, עלינו על רעיון איך לעשות הכללה של הרעיון הפשוט הזה לכל פונקצית החלטה שהיא. הפתרון שמצאנו מבוסס על העברת הקריאה של הרבה מאוד סנסורים למקום אחד, חישוב ממוצע שלהם ולקיחת פונקציה מעל הממוצע הזה. לכל בעיה כזו אנו יכולים לייצר תנאים אופטימליים, שאגב יכולים להיות בכמה מימדים, ואנחנו יכולים לייצר אוטומטית את התנאים שיגרמו לכמות תקשורת מינימלית.

"לקחנו טכניקות מעולם הגיאומטריה החישובית, והשתמשנו בהם בעולמות של Data Business, ותחום נוסף בשם Data Streams, אלו כיווני מחקר שלא היו קיימים אז. היום זה משהו שחוקרים בכל העולם. לפתרונות שהצענו היתה הכרה מאוד מהירה וקיבלנו כמה פטנטים על זה והרבה עובדים איתנו. כל הפיתוחים במחקר הם על בסיס הרעיון הזה, והם סביב המטרה להפחית משאבים ותקשורת בכדי לאפשר היתוך נתונים רב מערכתי ורב שכבתי בכל רגע נתון".

רק מידע רלוונטי

כל מכשיר חישובי עושה באון ליין פעולות מאוד פשוטות (לעומת זאת באוף ליין עושה פעולות מורכבות) וההחלטה אם שילוב האינדיקציות שמתקבל ממכשירים אחרים עובר את הסף היא מאוד פשוטה. כשמקימים את המערכת נדרשים תהליכיים חישוביים מאוד מורכבים שיכולים להעשות אוף ליין בתשתית חישובית כלשהי מאוד חזקה שבכלל לא נמצאת בשטח. חישובים אלו מייצרים את התנאים שיצטרכו להיבדק בשטח, ולכן צריך לייצר תנאים שהבדיקה שלהם תהיה פשוטה. אפשר גם לייצר כמה סוגים של תנאים ולעשות מעבר ביניהם (בהתאם לשטח). משך הריצה של חישובים מסוג זה יכול לקחת שעות עד ימי עבודה, אבל הם מאפשרים לרכך את התנאים לחישוב הממוצע המשותף וזמן החישוב של הסנסורים בזמן אמת בשטח מתקצר.

טכנולוגיה נוספת שפיתחו במסגרת המחקר בטכניון קשורה לסיבוכיות החישוב של התנאים ליצירת הממוצע. "בדרך כלל בתא שטח יש כמה מאות או אלפי סנסורים, ואז אפילו שנים של חישוב לא יספיקו. אז פיתחנו פתרון אלגוריתמי שייצר באופן היררכי את התנאים כך שאנו פותרים כמה מאות בעיות אופטימיזציה, אבל בין זוגות של מכשירים. כלומר, במקום לפתור למאה מכשירים, אנחנו פותרים לכל שניים ואחר כך מפרקים את התנאים חזרה. זה מקצר מאוד את זמן החישוב", מסביר פרופסור שוסטר.

"הסביבה שלנו תהיה יותר ויותר מוצפת בסנסורים בעתיד הקרוב. מדברים על ביג דאטה, אבל מה שהרבה לא מבינים, זה שרוב המידע יהיה מידע זורם (Stream) בגלל ריבוי הסנסורים. כמות המידע תהיה כזו שכבר לא יהיה שווה לשמור אותו ולנתח אותו בדיעבד, אלא רק כאן ועכשיו. המידע שהתקבל אתמול כבר לא יהיה רלוונטי כי כבר הגיבו עליו. כמו בבורסה למשל.

"היום יש נטייה לשמור מידע והיא לא נכונה כי העלייה בכמות הסנסורים גדולה יותר מאשר היכולת לשמור מידע והצורך בתשובות בזמן אמיתי הופך את שמירת המידע ללא רלוונטי. אבל יש מידע שיש לו חשיבות לשמירה לטווח ארוך, למשל כדי לנתח דפוסים שונים, לאפיין פרופילים של התנהגויות שונות. צריך לעשות הפרדה בין מידע שצריך לשמור לבין זה שלא. לפעמים יש מידע לא נכון וצריך להחליט איזה ידע לשמור. בדרך כלל זה יהיה חלק מאוד קטן מהמידע שיצטבר".

פחות התקשרויות

במציאות מרובת סנסורים, הייצור של הסנסורים חייב להיות יחד עם פיתוח הכלים להיתוך מידע. זאת בשונה מהמצב הקיים בתעשיות כאשר ייצור הסנסורים מופרד מעיבוד המידע שהם מייצרים, למרות שלפעמים אלו אותן חברות. "החיבור להיתוך של כמה סנסורים באותו איזור לא קיים עדיין. לדעתי זה ישתנה ותהיה האחדה בין הסנסור ובין פלטפורמת ההיתוך, כך שהסנסור ידע לסנן את המידע ולהעביר לפלטפורמת ההיתוך רק את מה שצריך", אומר פרופסור שוסטר.

"ניתן לראות התקדמות בכיוון בתחום המאיצים הגרפיים. מדברים על מערכות הטרוגניות או פלטפורמות שיהיו עליהן כמה CPU’s ו-GPU’s מסוגים שונים, כאשר יהיו מאיצים שונים לבעיות שונות כמו דחיסה של חומר או הצפנה, שידעו להוציאו מהסנסורים רק את האינפורמציה הרצויה. בנוסף, אם רוצים להוריד את צריכת האנרגיה שהפלטפורמות האלה צורכות, יצטרכו לעשות את הסנסורים הרבה יותר חסכוניים בפעולות עיבוד ועם אפשרות להדליק ולכבות אותם לסירוגין".

גם בהיבט שמירה על חשאיות בתקשורת בין הכוחות השונים בשטח, יש יתרון להפחתת ההתקשרויות בין הסנסורים השונים. "אם יש מישהו שיושב ומאזין למכשירים האלה, אז כמה שפחות הם ידברו ביניהם - יותר טוב. ככל שהם יותר ישדרו אז הצד השני ידע יותר טוב. יש מוטיבציה גם מהכיוון של מזעור כמות השידורים שלהם באמצעות שידורים רק בזמן שבאמת חייבים. הצלחנו לשלב מודל שנקרא פרטיות דיפרנציאלית (Differential privacy) שזה המודל המוביל היום בעולם של שמירת פרטיות מידע בהקשר האקדמי", אומר פרופסור שוסטר.

"הצלחנו לייצר חפיפה בין המודל לבין השיטות שלנו ואפשר להוכיח שככל שנוריד את כמות התקשורת, כך רמת הפרטיות של כל אחד ממכשירי הקצה תגדל. אפשר להוכיח את זה גם באופן פורמלי וגם על מערכות אמיתיות".

בעיית הפרטיות מנסה לאפשר לאנשים לקבל ידע על בסיסי נתונים בלי להסגיר את הפרטים של כל אחת מהרשומות באותו בסיס נתונים. "למשל, במאגר מידע של רשומות רפואיות אתה רוצה לעשות עיבודים שמפיקים ידע מאותו מאגר מידע בלי להסגיר את המידע שמישהו חולה במשהו מסוים. הבעיות בעולם הזה מאוד קשות. כשהתחילו להתעסק איתן, הייתה מישהי בשם סוויני שעבדה על הדוקטורט שלה באחת האוניברסיטאות בארה"ב והייתה פורצת דרך בנושא והיא יצרה את המושג 'אנונימיות מדרגה קיי'", מסביר פרופסור שוסטר.

"כלומר, אם אתה רוצה לחפש בחברה משכורת מסוימת בבסיס הנתונים, אתה יכול לקבל את המשכורת הממוצעת של מספר האנשים עד שהוא יורד מתחת לקיי. אם קיי הוא אלף, אז אי אפשר לבודד את ההכנסה הספציפית של מישהו מאותם אלף אנשים. התשובה תהיה תמיד רלוונטית לממוצע של אלף אנשים או יותר, ואז אתה מסתתר בקבוצה מספיק גדולה ושומר על הפרטיות. היא המציאה את זה לפני כ-15 שנה.

"מאז אומצו אותם רעיונות לכל מיני סטנדרטים שמופעלים היום בחוק לגבי אינפורמציה רפואית בארה"ב ומידע בכלל. בשנים האחרונות יש יותר חברות שאוספות יותר נתונים והחליטו להגיד לאנשים בתחומים שונים – הנה הנתונים שלנו, תטייבו את האלגוריתם שאנחנו מוציאים ממנו ערך כדי לאפשר לחברה שלנו לעבוד יותר טוב.

"לדוגמא, חברת נטפליקס יצאו עם הרעיון הבא: ניתן לכם רשימה של האנשים של איזה סרטים הם רואים ויש לנו אלגוריתם של איזה סרטים הם רוצים לראות. אם אתם תצליחו לשפר לנו בעשרה אחוזים את האלגוריתם של ההמלצה, ניתן לכם מיליון דולר. זו הייתה הסנונית הראשונה, היום יש המון. הם יעשו זאת על ידי אנונימיזציה של השמות של האנשים. זה עמד בדרישות לקיי מאוד גדולים. אנשים לקחו את הרשימות ועשו שימוש במה שנקרא 'מידע רקע' –מידע שלא קשור במישרין לבסיס הנתונים אותו ניתן להשיג גם מהאינטרנט, כמו שמות של אנשים שמדברים בבלוגים ומזכירים שמות סרטים. התחילו לעשות הצלבות בין מידע הרקע לבין המידע בבסיס הנתונים.

"במצב היום עם הרשתות החברתיות כל המידע הקיים הוא מידע רקע. הטכנולוגיה של קיי אנונימיות פותחה כשלא היה הרבה שימוש באינטרנט והיום כבר הצליחו לפרוץ לבסיסי נתונים והגיעו לשמות האנשים, כמו במקרה של חברת נטפליקס. חברה נוספת בשם AOL פרסמה רשימת שמות של אנשים ועשתה אנונימיזציה, וגם אותה פרצו ועלו על אישה מסויימת שיש לה כלב והיא קונה לו אוכל מסוג מסוים. במקרה הזה לא רק הצליבו מידע, אלא גם עשו פעולות אקטיביות כדי לפרוץ. זה נגמר בבתי משפט וגרם לשבירה טוטאלית של האמון ברשת וחברות הפסיקו לפרסם נתונים.

למרות המקרים האלו, התחילו חברות לפרסם מחדש בסיסי נתונים ובשנתיים האחרונות יש חברות ביטוח שמציעות פרסים לכל מי שידע לחזות מתוך הנתונים של החולה כמה ימים הוא יהיה מאושפז בשנה. כדי להתמודד עם מקרים אלו, התחילו לפתח שיטות חדשות לשמירה על פרטיות, אחת מהן היא רעיון הפרטיות הדיפרנציאלית. לא חשוב איזה מידע רקע יש, ומה אתה יכול לעשות איתו, עדיין כל שאילתה תסגיר רק מעט מידע וההסגרה שלו מצטברת לאורך זמן. "אם מישהו משדר כל הזמן, אז 'תקציב' הפרטיות שלו הולך ומתעכל", מסביר פרופסור שוסטר. "אם הוא משדר רק בקטעים שהוא חייב, אז העיכול של תקציב הפרטיות שלו הרבה יותר איטי".

שינוי תפיסת הפיקוד האנושי

האם ההתקדמות ביכולת היתוך המידע בזמן אמת יהפכו את הגורם האנושי בשדה הקרב ללא רלוונטי? פרופסור שוסטר מסביר כי ההפך הוא הנכון. "לדעתי התקדמות ביכולות היתוך מידע יהפכו את המשאב האנושי ליותר חשוב. המערכות מאוד מסובכות וזה מחייב את המפקדים בשטח לידע טכנולוגי רחב יותר. אנשים עם יותר ידע נעשים יותר חשובים. הצבא צריך לנצל את זה שהוא נמצא בחזית הידע כדי להשתמש ביכולות האנושיות הקיימות ולא לפחד מזה שהמכונות יחליפו את הפעולות הבסיסיות שאדם מבצע.

"פעולות כמו שמירה, או עיבוד בסיסי של תצלומים וכדומה כדאי יהיה לתת למכונות לעשות. בני אדם יצטרכו להבין את המכונות ולשפר אותן. גם בצד השני יש יכולת טכנולוגית וצריך לקחת זאת בחשבון בתכנון הפעולה. זה מחייב את האנשים שלנו לחשוב יותר לעומק מהמתחרים שלהם".

אולי יעניין אותך גם

נמרוד וקס. צילום: רועי שור

לא יודעים איפה המידע בארגון? חברת BigID הישראלית: ״הפתרון שלנו תומך ברגולציות פרטיות״ 

חברת BigID היא חברה אמריקאית-ישראלית שפיתחה פלטפורמה למיפוי המידע בארגון. לפי נמרוד וקס, שותף מייסד ומנהל המוצר בחברה, המוצר תורם ערך להתמודדות עם רגולציות פרטיות וכן עוזר להתמודד גם עם מתקפות כופר. ראיון מיוחד