Scanned Page Alignment & Form Identification

Categoria: Tecnologie
Ti trovi in : Home >> Tecnologie >> Scanned Page Alignment & Form Identification

Allineamento automatico delle pagine scansionate tramite tecnologia di lettura ottica e identificazione automatica dei moduli

Migliora i processi di estrazione dei dati
con il Page Alignment ed il Form Identification

Nel processo di acquisizione ed elaborazione dei documenti tramite lettura ottica da scanner sono presenti due tecnologie importanti e ricorrenti:

  • L’allineamento delle pagine scansionate (Page Alignment)
  • Il riconoscimento automatico della modulistica acquisita (Form Identification).

Il Page Alignment riposiziona un’immagine in modo che sia allineata con un modulo principale.

Il Form Identification invece, confronta l’immagine scansionata con i moduli master, per determinare se la pagina deve essere assegnata a una classe di documenti.
Si ricorre a questa tecnologia per migliorare i risultati dei processi di estrazione dei dati che sono legati a una zona specifica sull’immagine.

Queste tematiche, se non opportunamente gestite, possono inficiare in modo importante la qualità dell’intero processo di elaborazione documentale, generando problematiche che si ripercuotono nelle fasi successive della lavorazione del documento.

Un caso tipico è quello di problemi nella corretta gestione delle risposte dei fogli questionari, in particolare quando le selezioni delle risposte da marcare sono molte e quindi necessariamente molto vicine nel foglio risposta.

Page Alignment

Nella fase di acquisizione della pagina tramite lettura ottica da scanner possono generarsi dei disallineamenti meccanici che comportano una roto-traslazione della acquisizione digitale della immagine.

L’immagine acquisita risulta essere disallineata rispetto all’originale e per realizzare con successo le successive fasi di elaborazione (estrazione e riconoscimento campi, applicazione OCR; etc) è necessario sottoporre l’immagine digitale ad una procedura di correzione automatica tramite algoritmi di roto-traslazione.

Questo viene realizzato andando ad inserire nei pre stampati della modulisitca da acquisire delle immagini o dei marcatori in posizione note e ben precise (registri) che, una volta riconosciuti nella immagine acquisita, permettono di definire i parametri da applicare all’algoritmo di roto traslazione.

Il primo passaggio dell’algoritmo è quello quindi di andare a ricercare nella immagine i registri determinando la differenza tra la posizione attesa e la posizione effettiva in cui sono stati rilevati. 

I delta posizionali di ogni singolo registro permettono di roto traslare in modo efficace tutta l’immagine acquisita, andando ad ottenere una immagine normalizzata e pronta per essere sottoposta alle successi fasi di lavorazione.

L’algoritmo utilizzato in Chico prevede la presenza di 5 di questi registri. 

Uno dei marcatori è utilizzato per individuare in modo univoco l’orientamento della immagine per determinare immediatamente se la immagine è stata acquista in modo corretto o «capovolta».

Gli altri 4 registri sono dedicati alla determinazione della correzione della rototraslazione. L’algoritmo è già efficace con l’individuazione di tre punti di registro. Il quarto viene utilizzato per ulteriore sicurezza, qualora non venga rilevato uno dei precedenti tre.
L’algoritmo è estremamente efficace e consente di ottenere risultati affidabili con tempi di elaborazione molto veloci.

Form Identification

Una volta che l’immagine acquisita è stata correttamente allineata, permettendo di avere una immagine digitale affidabile e coerente rispetto all’originale cartaceo, è possibile andare a riconoscere che tipo di modulistica è stata acquisita.

Questo si rende necessario quando i lotti di scansione possono contenere modulistiche diverse all’interno dello stesso lotto o per segnalare la presenza di moduli non coerenti con quanto previsto dal lotto in lavorazione.

Chico applica l’algoritmo di Form Identification sulla falsariga di quanto fatto  nell’algoritmo di Page Alignment.

Anche in questo caso sono utilizzate delle immagini (possono essere barcode o testi o immagini)  la cui presenza in determinate posizioni del foglio identifica in modo univoco la tipologia.

Altre Tecnologie in uso nelle Soluzioni Chico

Algoritmo Decision Tree Classifier

Cos’è l’albero di decisione e come l’algoritmo alla base dei nostri sistemi permette di gestire i flussi di documenti, dati, e-mail, PEC, PDF ed altri allegati

leggi tutto