מהי תוכנת זיהוי טקסט OCR?

תוכנת זיהוי טקסט OCR מאפשרת לתרגם קובץ סרוק לאוסף של תווי טקסט המומר לקובץ בר עריכה כגון וורד. תהליך זיהוי תווים אופטי מאפשר לחסוך זמן רב של הקלדת מסמכים למחשב. ארגונים שאינם משתמשים בתוכנת OCR צריכים להשקיע שעות רבות של הקלדה ליצירת מסמכים ממוחשבים ברי עריכה.

אחד השימושים הנפוצים של תוכנת זיהוי טקסט OCR מאפשר לחסוך הקלדה באמצעות סריקה של מסמך קיים והמרתו לוורד. קחו לדוגמה חוזה משפטי המכיל 400 דפים שנוצר במכונת כתיבה לפני 30 שנים והארגון מעוניין להכניסו למחשב כקובץ וורד. כדי להקליד את החוזה הארגון יידרש לעשרות שעות הקלדה ולהוצאה כספית גדולה. כדי לקצר את הזמן הארגון סורק את המסמך למחשב ומעביר אותו בתוכנת זיהוי טקסט. התוכנה מזהה את התווים וממירה את הטקסט הסרוק לטקסט בר עריכה בקובץ וורד.

PDF TO WORD

כדי להמיר מסמכי טקסט סרוקים כגון PDF לפורמט בר עריכה (כגון וורד ואקסל) יש צורך בסורק מסמכים איכותי ומקצועי מהיר ותוכנת OCR מעולה עם אחוזי זיהוי גבוהים. תוכנה איכותית נחשבת לכזו כאשר אחוזי הזיהוי שלה קרובים ל- 100 ויש לה יכולת לזהות פונטים מכל סוג ושפה (כולל כתב רש"י). תוכנה איכותית צריכה לעבוד במהירות גבוהה ולהיות מסוגלת לנתח ולזהות אלפי מילים בדקה. לצערנו עדיין לא הומצאה התוכנה האולטימטיבית עם זיהוי של 100% כך שיש צורך לתקן שגיאות באופן ידני בתום פעולת התוכנה.

תוכנת OCR בעברית

מפתחי תוכנות זיהוי טקסט משתמשים בטכנולוגיות מתקדמות כדי להגדיל את אחוזי הזיהוי של האותיות בעברית להבדיל מאחוזי הזיהוי הלא גבוהים יחסית בשפה העברית, אחוזי הזיהוי של האותיות הלטיניות קרוב ל- 99% והוא נובע מחיבור התוכנה למילון משוכלל המקטין את אחוזי הטעות בכך שהוא מוצא את המילים הנכונות במילון.

הצלחת פענוח תווים של תוכנת OCR בשפה העברית מהווה אתגר מורכב. להבדיל מהשפות הלועזיות, השפה העברית נכתבת מימין לשמאל והיא מכילה ניקוד ותווים דומים כגון האות ו' והאות ן', האות ג' והאות נ', האות ם' הספרה 0 והאות ס' ועוד. מעצבי פונטים מודרניים נוטים לצמצם את ההבדלים בין התווים ואינם תורמים את חלקם להגדלת אחוזי הזיהוי של תוכנות ה- OCR.

להצעת מחיר ולהזמנת שירותי סריקת או גריסת מסמכים חייגו 054-5880060

You are currently viewing מהי תוכנת זיהוי טקסט OCR?
המרת PDF לןןרד