III. OCR¶
La digitalizzazione di documenti può prevedere l’applicazione di un processo di riconoscimento ottico di scrittura (Optical Character Recognition - OCR) [10], al fine di estrarre descrittori per i motori di ricerca e per visualizzatori avanzati.
Occorre garantire la massima qualità del processo di OCR per ottimizzare le percentuali di riconoscimento ad almeno il 90% dei caratteri. Nel caso in cui il fornitore utilizzi file di training personalizzati, questi devono essere resi disponibili all’Amministrazione.
I file PDF prodotti con il processo di OCR devono essere di tipo ricercabile con il testo incluso. Nel caso si vogliano utilizzare formati immagini, è necessario fornire file esterni che gestiscano il riconoscimento dei testi ed il posizionamento di questo nella pagina. Formati standard sono hOCR [11] o ALTO [12].
[10] | Per i manoscritti si vedano anche HTR - Handwritten Text Recognition, Intelligent Word Recognition - IWR, Intelligent Character Recognition - ICR. |
[11] | https://en.wikipedia.org/wiki/HOCR. |
[12] | http://www.loc.gov/standards/alto/. |