שוחררה אצווה ראשונה של מילים בעברית עבור מערכות עיבוד שפה טבעית

מערך הדיגיטל הלאומי והאקדמיה ללשון העברית, משחררים קורפוס עברי מתויג לשימוש חופשי (ברישיון קוד פתוח) לציבור ולתעשייה | המיזם הנוכחי כולל תיוג מורפולוגי ברמה גבוהה ("תיוג זהב") של כ-200,000 מילים שנעשה על ידי האקדמיה ללשון העברית

bigstock

מיזם קורפוס השפה העברית נועד לייצר תשתית להבנת השפה העברית על ידי מחשב. היכולת של מחשב "להבין" עברית תאפשר מגוון רחב של שימושים על ידי עיבוד שפה טבעית – ובכלל זה דיבור למחשבים ומכשירי חשמל ואלקטרוניקה, בוטים חכמים בעברית, שיפור יכולות הפקת תובנות מטקסטים חופשיים ומסמכים סרוקים, למידת מכונה מטקסט עברי, תרגום אוטומטי ועוד.

המיזם הנוכחי כולל תיוג מורפולוגי ברמה גבוהה ("תיוג זהב") של כ-200,000 מילים שנעשה על ידי האקדמיה ללשון העברית. בניגוד לתיוגים אוטומטיים, זהו תיוג ידני בידי אנשי לשון - על בסיס הצעות אוטומטיות ממערכות האקדמיה – שני מתייגים שונים לכל מילה ובקרה על ידי מתייג מקצועי מטעם האקדמיה – ומכאן חשיבותו לאימון של יישומי עיבוד שפה טבעית.  

הקורפוס משוחרר בקוד פתוח ומאפשר שימוש בטכנולוגיות מתקדמות מבוססות שפה טבעית גם בעברית. כעת משוחררת לשימוש הציבור המנה הראשונה של כ-20,000 מילים, בעולמות התוכן של משרד המשפטים ובנק ישראל. שאר הקורפוס המתויג יפורסם במהלך השנה הקרובה.

שירה לב עמי, מנכ"לית מערך הדיגיטל הלאומי: ״מערך הדיגיטל הלאומי הרים את הכפפה להקמת תשתית לאומית של שפה עברית מתויגת לדיגיטל, שתאפשר לעסקים וארגונים לייצר פתרונות שישפרו את איכות החיים במדינה. תשתית זו תאפשר בהמשך פיתוח פתרונות NLP בעברית, שיאפשרו לכל מחשב ומכשיר דיגיטלי הבנה של שיחה בעברית, שמאפשרת מגוון גדול של יישומים, ויסייעו גם לבעלי מוגבלויות.

״אנחנו משקיעים ונמשיך להשקיע בשיפור עולם התוכן של הבנת השפה העברית, כחלק מההשקעה בפתרונות מבוססי בינה מלאכותית.״

טלי בן יהודה, מנכ"לית האקדמיה ללשון עברית: ״האקדמיה רואה חשיבות רבה בקידום עיבוד שפה טבעית בעברית כדי להבטיח את המשך השימוש בעברית בכל תחומי החיים גם בעידן השימוש הגובר בכלים אוטומטיים. שיתוף הפעולה עם מערך הדיגיטל הלאומי נועד לאפשר תשתית איכותית ופתוחה לכול לעיבוד שפה טבעית בעברית, כדי שאפשר יהיה לפתח כלים בעברית שלא יפלו באיכותם מאלה באנגלית.״

יחידת החדשנות במערך הדיגיטל הלאומי והאקדמיה ללשון העברית היו שותפות בעבר למיזם חלוץ בתיוג טקסטים עבריים ללמידת מכונה, ומיזם זה הוא המשכו הישיר של מיזם החלוץ.

קישור לקורפוס: https://data.gov.il/dataset/corpus

img
פרשנות | כוח צבאי משמעותי של נאט״ו יכול להקטין הסתברות למלחמה גרעינית באירופה
דעה | אופציה צבאית ישראלית תוכל לרסן את איראן 
קבוצת SQLink רוכשת את ZIGIT הישראלית
קבוצת SQLink רוכשת את ZIGIT הישראלית