Tecnologie

PDF – Creazione, Conversione, Gestione

Il formato PDF

Originariamente nato come formato per gestire comandi di stampa in ambito professionale, il formato PDF si è via via evoluto diventando nel tempo il formato più usato per la generazione e lo scambio di documenti.

L’evoluzione ha riguardato la flessibilità, la dinamicità e la interoperabilità dei contenuti.

Sono state quindi ad esempio via via introdotte funzionalità in grado di rendere dinamici i contenuti del documento e le relative rappresentazioni del contenuto (e.g. la «data corrente» aggiornata nel momento della visualizzazione o stampa del documento) arrivando a poter inserire, questo dalla versione 7, all’interno del file PDF anche del codice Java Script.

Al tempo stesso queste funzionalità di rendering dinamico sono state invece disattivate nel formato PDF/A concepito espressamente per la conservazione inalterabile dei documenti (e.g. vedasi la Conservazione a Norma prevista in Italia dalle direttive Agid).

Creazione di PDF

In massima sintesi due sono i momenti in cui può avvenire la creazione di PDF:

1. Come risultato di un processi di acquisizione e scansione da scanner: in questo caso il PDF contiene di fatto l’immagine del documento originario; può essere arricchito, contestualmente alla creazione, o successivamente tramite post elaborazioni, di contenuto di tipo testo ottenendo cosi un PDF Searchable (vedi più avanti).

2. Come output di un processo digitale di creazione o conversione documenti: in questo caso il PDF contiene sia immagini che stringhe di testo e comandi secondo la sintassi prevista dal formato PDF.

Esempi di questo caso sono le stampe in formato PDF generate dai più comuni prodotti di office automation o le conversioni in formato PDF di file originariamente in formati diversi (e.g. Ms Office, ODF, XML, JSON, XPS, etc. etc.) o le creazioni da parte di software gestionale o tecnico (e.g. produzione di pro forma fatture da parte di più comuni software gestionali).

PDF Searchable

Una menzione a parte merita il cosi detto formato PDF Searchable; questo è la sintesi di due processi distinti:

  Scansione da scanner e produzione di un formato immagine;

  Riconoscimento dei caratteri tramite OCR presenti nella immagine;

Il risultato è la produzione di un file PDF che contiene:

1. L’immagine originaria risultante dalla scansione;

2. Il testo riconosciuto dal processo OCR; di norma questo viene memorizzato come testo non visibile, e quindi in fase di riproduzione del documento non viene visualizzato, e con tutte le informazioni a corredo raccolte durante la fase di OCR, quindi oltre al testo, dimensione, posizione etc. etc.

Il testo riconosciuto può essere quindi utilizzato nelle successive fasi di elaborazione del documento senza dover riapplicare il processo di OCR sulla immagine rappresentante la copia speculare del documento originario.

La soluzione Chico

Chico è in grado di : 

Generare PDF da processi di scansione

Generare PDF da processi di elaborazione

Generare PDF Searchable utilizzando sofisticati meccanismi di OCR dotati di Fuzzy Logic

Convertire in PDF tutti i più utilizzati formati file

Elaborare i contenuti dei vari formati PDF estraendone i dati e andando ad utilizzarli per post elaborazioni anche complesse (e.g. alimentazione flussi di fatturazione elettronica partendo da fatture in formato proforma PDF)

«Navigare» all’interno dei contenuti di un file PDF, per l’individuazione delle informazioni da estrarre, grazie a tecniche proprietarie che permettono di sfruttare logiche di

Labeling

Prossimità (near range far range, up down left right,..)

Espressioni Regolari (formati carte di credito, nr documento patente, identità, passaporto,
date, etc. etc.)