Docs Italia beta

Documenti pubblici, digitali.

III. OCR

La digitalizzazione di documenti può prevedere l’applicazione di un processo di riconoscimento ottico di scrittura (Optical Character Recognition - OCR) [10], al fine di estrarre descrittori per i motori di ricerca e per visualizzatori avanzati.

Occorre garantire la massima qualità del processo di OCR per ottimizzare le percentuali di riconoscimento ad almeno il 90% dei caratteri. Nel caso in cui il fornitore utilizzi file di training personalizzati, questi devono essere resi disponibili all’Amministrazione.

I file PDF prodotti con il processo di OCR devono essere di tipo ricercabile con il testo incluso. Nel caso si vogliano utilizzare formati immagini, è necessario fornire file esterni che gestiscano il riconoscimento dei testi ed il posizionamento di questo nella pagina. Formati standard sono hOCR [11] o ALTO [12].

[10]Per i manoscritti si vedano anche HTR - Handwritten Text Recognition, Intelligent Word Recognition - IWR, Intelligent Character Recognition - ICR.
[11]https://en.wikipedia.org/wiki/HOCR.
[12]http://www.loc.gov/standards/alto/.