Tecnologie

Scanned Page Alignment & Form Identification

Ti trovi in : Home >> Tecnologie Scanned Page Alignment & Form Identification

Contesto di Riferimento

Nel processo di acquisizione ed elaborazione dei documenti tramite lettura ottica da scanner sono presenti due tematiche ricorrenti:

Allineamento delle pagine scansionate (Page Alignment)

Riconoscimento automatico della modulistica acquisita (Form Identification)

Queste tematiche se non opportunamente gestite possono inficiare in modo importante la qualità dell’intero processo di elaborazione documentale realizzato nelle fasi successive. Un caso tipico è quello di problemi nella corretta gestione delle risposte dei fogli questionari, in particolare quando le selezioni delle risposte da marcare sono molte e quindi necessariamente molto vicine nel foglio risposta.

Page Alignment

Nella fase di acquisizione della pagina tramite lettura ottica da scanner possono generarsi dei disallineamenti meccanici che comportano una roto traslazione della acquisizione digitale della immagine .

L’immagine acquisita risulta essere disallineata rispetto all’originale e per realizzare con successo le successive fasi di elaborazione (estrazione e riconoscimento campi, applicazione OCR; etc etc) è necessario sottoporre l’immagine digitale ad una procedura di correzione automatica tramite algoritmi di roto traslazione.

Questo viene realizzato andando ad inserire nei pre stampati della modulisitca da acquisire delle immagini o dei marcatori in posizione note e ben precise (registri) che, una volta riconosciuti nella immagine acquisita, permettono di definire i parametri da applicare all’algoritmo di roto traslazione.

Il primo passaggio dell’algoritmo è quello quindi di andare a ricercare nella immagine i registri determinando la differenza tra la posizione attesa e la posizione effettiva in cui sono stati rilevati. I delta posizionali di ogni singolo registro permettono di roto traslare in modo efficace tutta l’immagine acquisita andando ad ottenere una immagine normalizzata e pronta per essere sottoposta alle successi fasi di lavorazione.

L’algoritmo utilizzato in Chico prevede la presenza di 5 di questi registri. Uno è utilizzato per individuare in modo univoco l’orientamento della immagine per determinare immediatamente se la immagine è stata acquista in modo normale o «capovolta».

Gli altri 4 registri sono dedicati alla determinazione della correzione della rototraslazione. L’algoritmo è già efficace con la individuazione di tre punti di registro per quarto viene utilizzato per ulteriore sicurezza qualora venga rilevato uno dei precedenti tre.
L’algoritmo è estremamente efficace e consente di ottenere risultati affidabili con tempi di elaborazione molto veloci.

Form Identification

Una volta che l’immagine acquisita è stata correttamente allineata permettendo di avere una immagine digitale affidabile e coerente rispetto all’originale cartaceo, è possibile andare a riconoscere che tipo di modulistica è stata acquisita.

Questo si rende necessario quanto i lotti di scansione possono contenere modulistiche diverse all’interno dello stesso lotto o per segnalare la presenza di moduli non coerenti con quanto previsto dal lotto in lavorazione.

Chico applica l’algoritmo di Form Identification sulla falsa riga di quanto fatto  nell’algoritmo di Page Alignment. Anche in questo caso sono utilizzate delle immagini (possono essere barcode o testi o immagini)  la cui presenza di determinate posizioni del foglio identifica in modo univoco la tipologia