Software OCR
I programmi OCR sono software capaci di far interpretare ad un computer i caratteri stampati, e permettendo il riconoscimento del testo sono sicuramente l’elemento essenziale dei sistemi di
lettura ottica.
Come funzionano i programmi OCR?
OCR è una sigla inglese che sta per "Optical Character Recognition", ossia "riconoscimento ottico dei caratteri". Un software OCR deve svolgere un'operazione che risulta naturale e semplice per un essere umano, ma non lo è assolutamente per un computer: deve infatti decifrare i caratteri stampati su un documento – che sono, per un elaboratore, essenzialmente immagini – e riconoscere il testo, nella varietà di forme possibili, comprendendo che si tratta di lettere e numeri, così da poterli "leggere".
Può appunto apparire un compito semplice, ma in realtà la tecnologia impiegata nei programmi OCR che usiamo oggi, e che ha un riconoscimento dei caratteri accurato al 99%, è il frutto di più di sessant'anni di sviluppo e ricerca. È infatti dagli anni '50 del 1900 che vengono elaborati gli algoritmi che permettono oggi a questi programmi di riconoscere, in un documento di buona qualità e chiarezza di stampa, che una "A" è una A, e che un 8 e una B maiuscola sono caratteri differenti. Oltre a questo, sono state sfruttate altre tecnologie, basate sulle reti neurali, che sono diventate la base di software in grado di interpretare scansioni di bassa qualità, e perfino di ricostruire il testo e la formattazione originali ove necessario.
Il riconoscimento caratteri di cui abbiamo parlato si riferisce però ai soli documenti a stampa; nella pratica, invece, è frequente dover digitalizzare moduli compilati a mano. La dicitura corretta in questo caso non è più quella di OCR, bensì di ICR, o Intelligent Character Recognition: si tratta infatti di interpretare caratteri con un grado di variazione molto più ampio rispetto a quelli stampati, il che richiede una tecnologia ben più complessa.
Per questa ragione, le applicazioni di questo tipo funzionano al meglio nel caso di documenti con appositi campi di compilazione predisposti a caselle, e che indichino all’utente le avvertenze necessarie ad evitare le ambiguità. In questo modo il livello di accuratezza rimane considerevole, intorno al 95% per i caratteri numerici e all’85% per quelli alfabetici.
OCR per documenti scritti in corsivo
Il riconoscimento del testo scritto in corsivo è decisamente ancora un campo di ricerca, e al momento non esistono software ICR, e tantomento OCR in grado di garantire risultati di accuratezza significativa. Stanno però dando risultati migliori in questo settore i programmi di riconoscimento del testo che lavorano su intere parole anziché sul singolo carattere; e ancora più promettenti sono quei software in grado di implementare anche un’analisi del contesto.
Sapendo infatti che un documento è – ad esempio – di argomento storico, il programma di riconoscimento testi terrà conto del fatto che con buona probabilità conterrà molte date, e quindi tradurrà più facilmente una riga verticale seguita da un 9 nel numero 1 (nell’ipotesi che siano l’inizio di un anno del 1900) anziché come una I. La tecnologia di interpretazione di questo tipo di testi, ad ogni modo, continua ad essere lontana dal raggiungere un accettabile livello di precisione ed affidabilità.
Abbiamo soluzioni software e programmi OCR per documenti di ogni genere, e da trent'anni ne sviluppiamo per ogni cliente che abbia esigenze specifiche – sia in vendita, per le necessità continuative, che come servizio per casi unici e occasionali. Abbiamo la soluzione che fa per voi, o possiamo svilupparla se vi occorrono prestazioni uniche!
Puoi interagire direttamente con noi in Chat cliccando sul "
Supporto Live" in basso a destra quando siamo on line, o mandarci un’e-mail cliccando sul bottone qui sotto.