Tecnologie

Algoritmo Decision Trees Classifier

Algoritmo Decision Trees Classifier

Il Decision Tree è uno degli algoritmi più noti nell’ambito delle tecniche di intelligenza artificiale ed in particolare appartiene alla cateroria degli algoritmi di tipo Supervised Learning.

Il campo di applicazione tipico è quello dei problemi di classificazione in cui in base ai valori di input viene determinata una classe di appartenenza dei valori di input e questa classe di appartenenza è individuata da un insieme discreto di valori, nei casi più semplici da un solo valore.

Esistono anche altri campi di applicazione in letteratura e nella pratica, ad esempio i problemi di regressione in cui come risultato dell’algoritmo si ottengono dei valori continui, tuttavia questi non sono di interesse nel campo della gestione documentale.

L’algoritmo è di tipo supervised in quanto l’insieme dei dati di input, e l’insieme dei dati campioni utilizzati per la fase di traning e configurazione dell’algoritmo, è costituito coppie «label:valore»; un tipico nel caso di gestione email sono le coppie «destinatario:indirizzo destinario» «oggetto: parola chiave nell’oggetto»
«testo:parola chiave nel testo» «presenza allegato: si/no» .

L’albero è costituito da nodi, archi e foglie.

  I nodi rappresentano delle decisioni prese sulla base dei valori delle variabili di input.

  Gli archi sono le relative decisioni, un arco per ogni decisione possibile per il nodo; un arco può determinare come prossimo step un successivo nodo decisionale o una foglia; in questo secondo caso l’attraversamento dell’albero termina e viene determinato il valore dell’output associato alla foglia raggiunta.

Le foglie rappresentano il risultato di output.

Algoritmo Decision Trees Classifier

Il Decision Tree è uno degli algoritmi più noti nell’amnito delle tecniche di intelligenza artificiale ed in particolare appartiene alla cateroria degli algoritmi di tipo Supervised Learning.

Il campo di applicazione tipico è quello dei problemi di classificazione in cui in base ai valori di input viene determinata una classe di appartenenza dei valori di input e questa classe di appartenenza è individuata da un insieme discreto di valori, nei casi più semplici da un solo valore.

Esistono anche altri campi di applicazione in letteratura e nella pratica, ad esempio i problemi di regressione in cui come risultato dell’algoritmo si ottengono dei valori continui, tuttavia questi non sono di interesse nel campo della gestione documentale.

L’algoritmo è di tipo supervised in quanto l’insieme dei dati di input, e l’insieme dei dati campioni utilizzati per la fase di traning e configurazione dell’algoritmo, è costituito coppie «label:valore»; un tipico nel caso di gestione email sono le coppie «destinatario:indirizzo destinario» «oggetto: parola chiave nell’oggetto»
«testo:parola chiave nel testo» «presenza allegato: si/no» .

L’albero è costituito da nodi, archi e foglie.

  I nodi rappresentano delle decisioni prese sulla base dei valori delle variabili di input.

  Gli archi sono le relative decisioni, un arco per ogni decisione possibile per il nodo; un arco può determinare come prossimo step un successivo nodo decisionale o una foglia; in questo secondo caso l’attraversamento dell’albero termina e viene determinato il valore dell’output associato alla foglia raggiunta.

Le foglie rappresentano il risultato di output.

La classificazione delle email

Uno dei problemi sempre più frequenti da affrontare è quello della gestione automatica o semi automatica di volumi sempre crescenti di email.

La progressiva digitalizzazione dei processi, sia in ambito privato che presso le pubbliche amministrazioni centrali e locali, ha comportato un aumento esponenziale delle email scambiate tra soggetti privati, imprese, amministrazioni pubbliche e organizzazioni in generale.

Il primo passo fondamentale per questa gestione semi automatica è quello di classificare la email in modo automatico e l’algoritmo Decision Tree Classifier è quello che sul campo sta dimostrando di fornire i migliori risultati.

La configurazione dell’albero di decisioni è semplice ed intuitiva e il tuning è facile e veloce soprattutto se supportato da strumenti adeguati.

Una volta classificata è poi possibile, ad esempio:

 Inoltrarla ai destinatari di competenza

Elaborare in modo opportuno gli allegati con tecniche di data mining

Notificare l’arrivo della email a processi interni o interni

La soluzione Chico

Chico fa largo uso del Decision Trees Algoritm per la realizzazione di soluzioni di gestione automatica email; i risultati sono particolarmente buoni grazie anche all’utilizzo di tecniche di Analisi semantica del testo che tramite la gestione di sinomini, logiche di prossimità e altro ancora permettono di configurare nodi decisionali molto sofisticati in modo molto semplice ed intuitivo.

Ad esempio è possibile definire una regola che preveda un test che verifichi nel testo di una email o nel suo oggetto o nei suo allegati

la presenza del termine «rinnovo», e tutti i possibili sinomini

e del termine «contratto» , e di tutti i possibili sinomini

controllando la distanza in termini di numero di parole tra i due termini

Il tutto viene realizzato in Chico tramite una semplice regola utilizzando gli operatori logici presenti nel tool di configurazione.

Efficace e Completo

Chico è in grado di

Generare PDF da processi di scansione

Generare PDF da processi di elaborazione

Generare PDF Searchable utilizzando sofisticati meccanismi di OCR dotati di Fuzzy Logic

Convertire in PDF tutti i più utilizzati formati file

Elaborare i contenuti dei vari formati PDF estraendone i dati e andando ad utilizzarli per post elaborazioni anche complesse (e.g. alimentazione flussi di fatturazione elettronica partendo da fatture in formato proforma PDF)

«Navigare» all’interno dei contenuti di un file PDF, per l’individuazione delle informazioni da estrarre, grazie a tecniche proprietarie che permettono di sfruttare logiche di

Labeling

Prossimità (near range far range, up down left right,..)

Espressioni Regolari (formati carte di credito, nr documento patente, identità, passaporto,
date, etc. etc.)