נלחמים בקורונה: המידע מגויס לחקר התפשטות המגיפה

Talend, מפתחת של פלטפורמה לניהול ואינטגרציה של נתונים, הודיעה כי פיתחה כלי ETL חינמי, מבוסס על פתרון טעינת המידע Stitch, לביצוע אינטגרציה של מאגרי המידע המרכזיים לחקר הקורונה

יוסי רודריק, מנכ"ל אקורייט, נציגת Talend בישראל. צילום: Talend

אחת הבעיות המובילות בחקר מגיפת הקורונה נוגעת ביצירה של תמונת מצב גלובאלית ומעודכנת של התפשטות הנגיף. קיים מספר לא מבוטל של מאגרי מידע המספקים מידע רב ומגוון על המחלה, אך הבעיה נובעת מכך שכול אחד ממאגרי המידע מקורו בגוף אחר – בין אם מדובר בגוף מחקרי-אקדמי, משרדי בריאות של מדינות שונות, האיחוד האירופאי, ארגוני בריאות בינ"ל, ועוד. כול אחד מהגופים מייצר מאגר מידע בפורמט שונה, עם דרך הצגת נתונים שונה, והדבר מצריך חוקרים מסביב לעולם בתחומי הרפואה ובריאות הציבור לבצע עבודת הכנה וסטנדרטיזציה למידע הגולמי לפני שניתן יהיה לאחד את המידע ולהשתמש בו לצורכי מחקר, ניתוח ואנליזה.

Talend, מפתחת של פלטפורמה לניהול ואינטגרציה של נתונים, הודיעה כי פיתחה כלי ETL חינמי, מבוסס על פתרון טעינת המידע Stitch, לביצוע אינטגרציה של מאגרי המידע המרכזיים לחקר הקורונה. הכלי החדש, שפותח בשיתוף עם מפתחים מקהילת הקוד הפתוח Singer ו-Bytecode, מריץ את המידע הגולמי המתקבל מ-6 מאגרי מידע עולמיים ומבצע סטנדרטיזציה של הנתונים, מעשיר אותם במטה-דאטה, ובסופו של תהליך מעביר את המידע האחוד לאגם מידע הפתוח לשימוש על גבי תשתיות הענן של אמזון, מיקרוסופט, גוגל, ועוד.

מאגרי המידע הנמנים הנכללים באיחוד הנתונים כוללים את: בסיס הנתונים של אוניברסיטת ג'ון הופקינס, בסיס הנתונים של האיחוד האירופאי, בסיס הנתונים של משרד הבריאות האיטלקי, בסיס הנתונים של הניו יורק טיימס, בסיס הנתונים של קבוצת המחקר Neher Lab המתמחה בחקר פאתוגנים מאוניברסיטת באזל בשווייץ, וקהילת המחקר COVID-19 Tracking Project.

בפוסט שפרסמה Talend נכתב כי "דאטה מסייע לחוקרים להבין את התפשטות המחלה, האופנים בהם היא מועברת, ואת שיעורי ההדבקה שלה. דאטה הוא יקר ערך במלחמה נגד הוירוס. אולם חוקרים מתמודדים עם אתגר ייחודי כאשר הם עובדים עם נתונים שמקורם במערכות בריאות שונות. לאחד אותם הופך לאתגר בפני עצמו, וגם אם הקבצים אוחדו, עדיין נדרש לבצע בהם פעולות שיבטיחו את הרציפות של הזמנים והמיקומים. במקרים רבים גם נדרש ניקוי של המידע הגולמי. מקצועני דאטה בתחומי בריאות הציבור וחוקרים נוספים זקוקים למידע באיכות גבוהה ביותר ודיוק מקסימלי. ככול שרמת הדיוק והניקיון של המידע האחוד היא גבוהה יותר, כך הם יכולים מהר יותר להגיע למחקר המבוסס על בסיסי נתונים אלו".

יוסי רודריק, מנכ"ל אקורייט (aQurate) מקבוצת UCL, נציגת Talend בישראל, ציין כי "אנחנו רואים את המצב בו על מנת לקבל תמונת מצב עסקית נדרשת עבודה של אינטגרציה ממספר רב של מקורות מידע ארגוניים וחיצוניים. זהו תרחיש עסקי מקובל, ואנו פעילים בעולמות הללו באופן שוטף. ההבדל פה הוא בכך שמדובר במאגרי מידע גלובאליים גדולים ומורכבים, שאיחוד הנתונים שלהם יכול לספק לחוקרים  כלים להבנת התפשטות מגיפת הקורונה, שהיא בעלת השפעה חריגה על חיינו - הן ברמה הבריאותית והן ברמה הכלכלית. המידע עובר לרשות החוקרים לאנליטיקה מתקדמת ועיבוד בתוך דקות, במקום ימים או אף שבועות בתהליכים המסורתיים של איחוד המידע והניקוי שלו".

גישה לכלי ה-ETL החינמי מתאפשרת באמצעות הלינק הבא: https://www.stitchdata.com/integrations/covid-19/

img
פרשנות | כוח צבאי משמעותי של נאט״ו יכול להקטין הסתברות למלחמה גרעינית באירופה
דעה | אופציה צבאית ישראלית תוכל לרסן את איראן 
קבוצת SQLink רוכשת את ZIGIT הישראלית
קבוצת SQLink רוכשת את ZIGIT הישראלית