III. OCR¶

La digitalizzazione di documenti può prevedere l’applicazione di un processo di riconoscimento ottico di scrittura (Optical Character Recognition - OCR) [10], al fine di estrarre descrittori per i motori di ricerca e per visualizzatori avanzati.

Occorre garantire la massima qualità del processo di OCR per ottimizzare le percentuali di riconoscimento ad almeno il 90% dei caratteri. Nel caso in cui il fornitore utilizzi file di training personalizzati, questi devono essere resi disponibili all’Amministrazione.

I file PDF prodotti con il processo di OCR devono essere di tipo ricercabile con il testo incluso. Nel caso si vogliano utilizzare formati immagini, è necessario fornire file esterni che gestiscano il riconoscimento dei testi ed il posizionamento di questo nella pagina. Formati standard sono hOCR [11] o ALTO [12].

[10]	Per i manoscritti si vedano anche HTR - Handwritten Text Recognition, Intelligent Word Recognition - IWR, Intelligent Character Recognition - ICR.

[11]	https://en.wikipedia.org/wiki/HOCR.

[12]	http://www.loc.gov/standards/alto/.

Docs Italia beta

Documenti pubblici, digitali.

III. OCR¶