פיענוח צילומים אוטומטי

האם אמצעי הצילום המודרניים המאפשרים צילום איכותי בתקן HD הופכים להיות חרב פיפיות בידי המפענחים? חן גרנס מחברת Pro-Visint, חושב שהעתיד טמון באלגוריתמים ממחושבים שיתמכו במגבלות הראייה האנושית

(shutterstock.com)

מאות אלפי מצלמות וידאו מצלמות בכל רגע נתון את סביבת חיינו. חלקן מוצבות בבתי עסק, רחובות, מגרשי חניה ובמקומות רבים נוספים. מצלמות אלו משמשות במשימות סדר ציבורי, אבטחה, שמירה ומודיעין. לאור התועלת הרבה המופקת מהן, השימוש בחוזי וידאו עולה בהתמדה וניתן לראות זאת עם כניסתם של פרויקטים מסוג "עיר בטוחה" ואבטחת מוסדות חינוך.

רואים, אבל פחות

חלוצי השימוש בחוזי וידאו היו מערכות צבאיות למטרות מודיעין חזותי, בינהם השימוש בכלי טיס ובבלונים לביצוע משימות תצפית אוירית ומערכות קרקעיות לתצפית לטווחים שונים. חוזי וידאו מתבצע בתדרים שונים, חלקם באור הנראה אך גם בתחומי האינפרה אדום כגון, מגבירי אור כוכבים למיניהם ומצלמות תרמיות בתחומי תדר שונים.

חוזי חי (באנגלית FMV - (Full Motion Video הוא צילום בגלאי דיגיטלי המועבר בתקשורת קווית או אלחוטית לצג טלוויזיה או מחשב, כאשר הצפייה בו יכולה להיות בזמן אמת או צפייה מאוחרת בהקלטה. בעבר, התנהלה תקשורת אנלוגית בין המצלמות והצגים היו בטכנולוגיית CRT (שפורפרת קרן קטודית) ואילו היום רוב המערכות הינן דיגיטליות וכך גם רובם המכריע של הצגים מהסוגים המוכרים כמו LCD, פלאזמה ו-LED.

הצילום והצגת התמונה הדיגיטלית מייצרים למעשה רצף של פיסות מידע בדידות המכונות פיקסלים היוצרות תמונה ע"ג צג ואילו עין האדם הצופה בהם, משתמשת בטכניקה שונה המתבססת על אבחנה בשינויים. בקרקעית עין האדם קיימים שני אזורים השונים בתפקודם - הרשתית והפוביאה.

הרישתית (RETINA) בעלת זווית רחבה של כ-180 מעלות (בעיניים בריאות) מספקת ראיה ברזולוציה נמוכה ואילו במרכז הרישתית, נמצא אזור בו רזולוציית הראייה היא הטובה ביותר והוא זה המשמש לקריאה וצפייה בצגים. אזור זה נקרא "הכתם" (MACULA) ובמרכזו "הגומה המרכזית" (FOVEA). הפוביאה קטנה ובה ריכוז גבוהה מאוד של חיישני ראיית צבע הנקראים מדוכים (CONES). הבעיה העיקרית עם עובדה זו, היא שרוחב השדה המשמש לראיה ברזולוצייה גבוהה הוא כ 2.4 מעלות או כ-40 מילירדיאן. לשם המחשה, רוחב זה הוא 2 ס"מ מטווח של חצי מטר.

אז כיצד אנו רואים בפועל תמונה מלאה של מסך וידאו או תמונה? הסוד מסתתר בטכניקת סקירה אוטומאטית של העין החולפת במהירות רבה מאוד על כל פרטי התמונה.

אותו גודל, יותר רזולוצייה

ההבדל היחיד בין מצלמתHD ומצלמת וידאו בטכנולוגייה מסורתית בתקןNTSC הוא בכמות הפיקסלים המצולמים בכל תמונה (פריים). כושר ההבחנה בפרטים בתמונה נגזר בראש ובראשונה מרזולוציית הצילום. הרזולוצייה מוגדרת במונחי ס"מ לפיקסל ואלו נקבעים בעיקר משני נתונים שלא השתנו במעבר בין הטכנולוגיות: גודל הפיקסל הבודד בגלאי הוידאו עצמו, ואורך המוקד של הטלסקופ (נתונים נוספים הם קוטר מפתח העדשה ואיכות העדשות).

תמונת HD מייצרת לנו שטח מצולם גדול יותר אך באותה רזולוצייה אופטית יחסית לתקן NTSC. כלומר, כושר ההבחנה בפרטים נשאר כשהיה, אך רוחב הפריים גדל ביחס ישיר להגדלת כמות הפיקסלים. תמונה שבטכנולוגייתNTSC הייתה בבמפתח זוויתי של מעלה אחת, בתמונתHD ברזולוציית 720X1280 תהיה שתי מעלות, אך באותו כושר הבחנה במונחי ס"מ לפיקסל.

כאמור, אם ברצוננו לקבל את אותה זווית בפריים, ברזולוציה גדולה יותר, אנו נדרשים להכפיל את הטלסקופ פי 2. משימה זו אינה אפשרית בדרך כלל עקב מגבלת מידות המצלמה ומגבלת מחיר.

בדוגמה שלפניכם ניתן לראות כי לעין קשה יותר להבחין בחתול בתמונת בתקןHD מאשר בתמונה בתקן NTSC עקב כמות המידע שנדרש לסרוק על מנת לאתר את החתול.

בעת צפיה בטלויזיה אנו רואים בברור כי שידור HD מייצר איכות צפייה טובה יותר. לפתע רואים את המספרים על גבם של שחקני הכדורגל והקהל נראה באנשים ולא כמסה חסרת צורה. למעשה, אנו רואים בדיוק את אותו הפריים, פעם באופן מפורט ב-HD ופעם ברזולוציה מופחתת בשידור בתקן ישן.

הסיבה לכך היא שמצלמות הטלויזיה המקצועיות מצלמות את שידור ה-HD בעדשה בעלת אורך מוקד כפול על מנת לשמור את אותו רוחב פריים מוכר מהעבר. לעומת זאת, בצילום מבצעי משתמשים בזום המקסימאלי שמאפשרת המצלמה, והגדלת כמות הפיקסלים בגלאי יוצרת רוחב תמונה גדול יותר אך ללא שיפור הרזולוציה.

לכאורה המצב הקיים רק טוב יותר. אנו מצלמים פי ארבע אינפורמציה בכל פריים ולכן יכולים לקבל יותר מידע בזמן נתון. העובדה הזו נכונה אם לא נביא בחשבון את מכשיר הפענוח העיקרי אם לא היחיד העומד לרשותינו - עין האדם.

אנו מציגים את תמונת הוידאו על גבי מסך. בחלק מהמערכות, שטח המסך נקבע בעבר לפי רזולוציית החומרה העומדת לרשותינו או לפי חלוקת העדיפות בין כלל הנתונים המוצגים. במקרים אלו לא נוכל להציג כלל את תמונת ה-HD ברזולוציה המתאימה ונאבד את רוב המידע הנוסף הגלום בה. חמור מכך, אם נציג תמונת HD על גבי מעט מידי פיקסלים במסך, נקבל רזולוציה פחות טובה מהתקן הישן.

אבודים בפיקסלים

גודל הפיקסל הבודד במסך דיגיטלי הוא בין 0.16 מ"מ ל-0.26 מ"מ. בניסויי הנדסת אנוש נמצא כי על מנת לאפשר לעין אנושית לראות את כל הפרטים שצולמו, יש להגדיל את התמונה בהכפלה של 1.5. הכפלה זו יוצרת מתיחות של חצאי פיקסל ולכן יש המעדיפים להכפיל את התמונה פי 2 (הצגת כל פיקסל מצולם על גבי ארבעה פיקסלים במסך) ובכך להבטיח שמירת איכות התמונה ונוחות הפענוח.

במקרה זה תפוענח תמונת NTSC ברזולוציה של 480X640 פיקסלים על ידי שטח מסך של 960X1280 פיקסלים. לתמונת HD בתקן SD של 720X1280 נדש מסך בגודל של 1440X2560 פיקסלים. באם נמשיך להתקדם לתקן FULL HD ידרש מסך בגודל 2160X3880 פיקסלים. הבעיה הנובעת מנתונים אלו היא שעין אנושית אינה יכולה לראות את כל הפרטים הנדרשים בתמונה, לא כל שכן בסרט וידאו המוצג בפרוט כזה.

בסרטון המופיע ב- YouTube תחת השם "The 2nd Lebanon war 41" מוצגת סיטואציה של ירי רקטות של חיזבאללה לעבר ישראל במלחמת לבנון השניה. סביר מאוד שלא תבחינו בכל הרקטות המשוגרות גם בצפייה שניה ושלישית. נתון זה מפתיע למדי כי הרקטה מייצרת גם שינוי גוון בולט וגם תנועה בתמונה ולכן היה מתבקש שנראה אותה מיד. אך העין ממוקדת באזור השיגור הראשון והראיה הפוביאלית שלנו מונעות כמעט לחלוטין את היכולת להבחין בשיגורים אחרים המתרחשים ממקומות שונים במסך. ואם התמונה הייתה מוצגת בפורמט HD על גבי מסך בגודל 17 או 19 אינטש, מה היה אז הסיכוי לראות אירוע זה?

דרושים: אלגוריתמים ממוחשבים

עד כאן ראינו כיצד הופך היתרון של צילום איכותי לחיסרון מבצעי כואב. אך עדיין אין להרים ידים ולוותר על יתרונות הצילום מרובה הפיקסלים. אמנם עין האדם אינה יכולה לקלוט את כל המידע ולנצלו ביעילות ולכן יש לבצע שימוש בכלי עזר שונים.

אפשרות אחת היא לחלק את משימת הצפייה בין מספר אנשים. פתרון זה מגושם ועלול ליצור בעיות חדשות. פתרונות נוספים הם הגדרת תחום חלקי בתוך התמונה אותו נציג תוך ויתור על שאר המידע. פתרון זה מייתר את הצורך במצלמה משוכללת ובעלות רוחבי פס יקרים להעברת המידע.

סט פתרונות אחר הינו שימוש באלגוריתמים ממוחשבים מתקדמית לתמיכה באדם בעת ביצוע משימת חוזי וידאו. אלגוריתמים אלו ממשפחות גילוי השינויים, גילוי התנועה, סיווג מטרות ופענוח אוטומאטי נמצאים בעולם ברמות בשלות שונות אך עדיין לא מספקות את צרכי עולם החוזי החי בזמן אמת. אם ברצוננו לנצל באופו ממשי את יכולות הוידאו העומדות לרשותינו כיום, עלינו לשפרם ולהבטיח את יעילותם במשימות חוזי שונות.

לחוזי וידאו שימוש רחב ומשמעותי במשימות שונות ומגוונות. הכניסה לעולם תקני ה-HD מצריכה מחשבה והתאמה לא רק של המצלמות אלה בעיקר של מערכות התצוגה. על מנת לנצל באופו מיטבי את התקנים החדשים, יש לפתח ולשפר אלגוריתמים ממוחשבים שיתמכו במשימות החוזי ויאפשרו ניצול המדיה ומיצוי המידע החשוב המצולם בה. ללא טיפול במכשולים שמציבה בפנינו מערכת הראיה האנושית, נגלה כי התועלת במעבר לתקנים מתקדמים קטנה מהנזק שהיא תגרום.

הכותב הינו מייסד חברת Pro-Visint ומומחה משימות חוזי זמן אמת ושותף להגייה ופיתוח מערכות מודיעין חזותי.

You might be interested also

One of the infiltrators who was captured. Photo: IDF Spokesperson's Unit

Commentary: Infiltrators from Lebanon travel around in Israel for almost an entire day. Will they be used for terrorist attacks? 

Two infiltrators entered Israel from Lebanon and stayed for almost a day without the military knowing where they were. The next time it happens, it could end in a terrorist attack or espionage. It appears that Hezbollah found a legitimate way to test the IDF's blind spots on the border