Ministero dell'Universita' e della Ricerca Scientifica e Tecnologica
Dipartimento Affari Economici

       
Coordinatore     PAOLO ATZENI
Titolo della Ricerca     DATA-X: GESTIONE, TRASFORMAZIONE E SCAMBIO DI DATI IN AMBIENTE WEB
Finanziamento assegnato     530 , Euro 273722,157
Rd+Ra     261 , Euro 134795,251 (dichiarata)   
Durata     24 mesi
 Obiettivo della Ricerca


La recente introduzione di XML (eXtensible Markup Language), lo standard per la descrizione e la formattazione delle informazioni proposto dal Consorzio W3, e' destinata a far crescere l'importanza del Web come piattaforma essenziale per l'accesso a sistemi informativi di ogni tipo. A fronte, pero', di uno sviluppo rapidissimo del mercato legato al Web, dovuto essenzialmente alle opportunita' commerciali che esso offre, non si e' ancora verificata un'altrettanto veloce maturazione delle metodologie e delle tecniche per la gestione dei dati in questo contesto: questo sviluppo "a due velocita'" -velocissimo della domanda di soluzioni, piu' lento per quanto riguarda l'approfondimento delle tecniche e delle metodologie -rischia di pregiudicare la grande opportunita' tecnologica che il Web rappresenta.

Se, da una parte, la tecnologia delle basi di dati tradizionali rappresenta un candidato naturale per la gestione dei dati in ambiente Web, dall'altra il Web impone di riconsiderare l'approccio strutturato all'informazione che e' tipico delle basi di dati. Infatti, su Web le informazioni sono normalmente organizzate secondo formati meno convenzionali, tipicamente testuali e denominati in letteratura semistrutturati.

Questa considerazione rappresenta la principale motivazione del progetto, il cui obiettivo e' quello di adottare come base di partenza il patrimonio consolidato di tecniche e metodologie delle basi di dati e ripensarlo ed estenderlo per adattarlo alla gestione dei dati in ambiente Web. In questo contesto, XML e' destinato a giocare un ruolo fondamentale. Infatti, separando la descrizione della struttura e della semantica dei dati rispetto alla presentazione, XML avvicina decisamente la gestione dei dati in ambiente Web alle tecniche di gestione dei dati strutturati.

In quest'ottica, lo scopo prioritario del progetto e' quello di sviluppare tecniche che consentano di supportare efficacemente applicazioni complesse di trasformazione dei dati, in cui sorgenti di dati o siti esistenti su Web vengono dapprima (a) selezionati, analizzati e classificati per valutarne la rilevanza rispetto all'applicazione; quindi, (b) le porzioni considerate rilevanti vengono descritte utilizzando opportuni modelli, ed interrogate per estrarne il contenuto; infine, (c) le informazioni estratte vengono integrate e riorganizzate per creare nuove sorgenti, siano esse siti orientati agli utenti, oppure collezioni di dati scambiati tra applicazioni. La ricerca sara' quindi articolata in tre temi principali, ciascuno dei quali rappresenta un filone interessante di studio, e che allo stesso tempo concorrono al raggiungimento degli obiettivi complessivi del progetto, come segue:

  • TEMA 1: Analisi e Classificazione di Sorgenti di Dati in Ambiente Web;
  • TEMA 2: Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web;
  • TEMA 3: Produzione e Scambio di Sorgenti di Dati in Ambiente Web;

Poiche' e' previsto lo sviluppo di strumenti software prototipali, che dovranno essere sperimentati, una specifica attivita' trasversale, cui concorreranno tutte le unita', sara' volta ad individuare applicazioni specifiche su cui sperimentare le metodologie e gli strumenti, fermo restando l'obiettivo di considerare la generalita' dei sistemi informativi su Web come riferimento complessivo.


Innovazione rispetto allo stato dell'arte nel campo


I principali contributi innovativi sono illustrati nel seguito tema per tema.
TEMA 1: Analisi e Classificazione di Sorgenti di Dati in Ambiente Web;

L'obiettivo del Tema 1 e' lo studio del processo di analisi, selezione e classificazione di sorgenti esistenti. Queste sorgenti, una volta analizzate, potranno essere interrogate e riorganizzate utilizzando le tecniche sviluppate nell'ambito degli altri temi.

A questo fine, sono necessari strumenti per la classificazione dei documenti, che consentano di selezionare la categoria appropriata per ciascun documento e raggruppare sorgenti che rispondano di stesse o simili strutture. In particolare, i DTD (Document Type Declaration) di documenti XML forniscono una base di informazioni estremamente rilevanti per procedere alla classificazione. Poiche', pero', XML e' parzialmente tipato (i DTD possono esistere o meno), e' necessario sviluppare strumenti che siano in grado di generare una descrizione dettagliata della struttura della sorgente (derivando i DTD mancanti e il modo in cui i documenti sono collegati).

Sono quindi obiettivo del tema i seguenti punti:

  • lo sviluppo di tecniche sofisticate di indicizzazione delle sorgenti, che discriminino termini rilevanti e relativi pesi;
  • la definizione di algoritmi e strumenti per la classificazione e l'integrazione di sorgenti di dati XML, basati sui DTD XML;
  • lo sviluppo di strumenti che, sulla base di un'analisi sintattica di una sorgente di dati XML, siano in grado di derivare i DTD mancanti e i collegamenti tra i documenti.
TEMA 2: Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web;
Una volta che i dati siano stati analizzati e classificati secondo le tecniche sviluppate nel tema precedente, l'obiettivo e' quello di sviluppare tecniche che consentano di manipolare efficacemente le informazioni.

Come punto di partenza per lo studio della modellazione e dell'interrogazione di sorgenti di dati in ambiente Web, le unita' coinvolte hanno individuato un modello di dati di riferimento (vedi la voce "Base di Partenza Scientifica" relativa al Tema 2 per una descrizione piu' accurata del modello). Sulla base del modello, la ricerca affrontera':
  • lo studio del sistema di tipi del modello;
  • la definizione e la sperimentazione di linguaggi per interrogare e ristrutturare i dati descritti secondo il modello di riferimento;
In entrambi i casi, l'obiettivo sara' quello di trovare un compromesso tra utilizzo della struttura e flessibilita' nella gestione delle irregolarita'.
TEMA 3: Produzione e Scambio di Sorgenti di Dati in Ambiente Web;
Il processo di trasformazione dei dati analizzati e interrogati secondo le tecniche sviluppate nei due temi precedenti si conclude con la produzione di nuove sorgenti, a cui e' dedicato il Tema 3. Tali sorgenti possono essere siti orientati alla navigazione da parte degli utenti, oppure collezioni di dati destinati allo scambio tra applicazioni interoperanti.

Per quanto riguarda lo sviluppo di siti, le unita' coinvolte hanno individuato un contesto metodologico di riferimento per il progetto e la creazione di siti Web (vedi la voce "Base di Partenza Scientifica" relativa al Tema 3 per una descrizione piu' accurata). Questo contesto di riferimento rappresentera' la base di partenza per la ricerca, che riguardera':
  • strumenti per la produzione di dati in formato XML con stili XSL;
  • tecniche e strumenti per la personalizzazione dei siti;
  • tecniche e standard per certificare la sicurezza, l'integrita' e la privatezza dei dati.

Infine, per quanto riguarda lo scambio di sorgenti di dati, l'enfasi sara' sulla definizione di protocolli basati su XML, e sulla loro ottimizzazione ai fini di applicazioni di scambio.


Criteri di verificabilità

1) 

I risultati attesi del progetto sono di natura scientifico-metodologica ("avanzamento delle conoscenze", descritti in rapporti tecnici e successivamente in pubblicazioni) e realizzativa (sviluppo di prototipi). Per ciascuna fase sono state indicate le attivita' previste per ciascuno dei temi su cui il progetto e' articolato e i relativi prodotti. I prodotti previsti sono elencati analiticamente nella proposta e per ciascuno e' indicata l'unita' o le unita' che parteciperanno al confezionamento. Le metodologie e i prodotti saranno sperimentati con riferimento ad applicazioni reali, sufficientemente generali ed appositamente individuate. Pertanto, la valutazione potra' essere fatta esaminando (per esempio con il contributo di revisori specializzati, probabilmente internazionali) la qualita' dei rapporti tecnici redatti e dei prototipi realizzati.

2) 

3) 

4) 

Unità di Ricerca

1]  Unità di       Universita' degli Studi ROMA TRE
     Responsabile Paolo ATZENI
     Rd+Ra      M£ 54 , Euro 27888,673 (dichiarata)
     Finanziamento   M£ 115 , Euro 59392,543
 
     Compito
     

Per quanto riguarda il Tema 1, l'obiettivo principale e' quello di studiare strumenti per il riconoscimento di struttura all'interno di documenti Web. Poiche' XML e' parzialmente tipato (i DTD possono esistere o meno, i link non sono tipati), importanti informazioni strutturali che la sorgente dati XML puo' presentare possono non essere esplicitamente descritte (ad esempio il fatto che un certo link, di una certa classe di documenti porta ad una istanza di un certo tipo). E' importante quindi sviluppare strumenti che, sulla base di un'analisi sintattica della sorgente dati, siano in grado di ricostruirne la struttura in maniera dettagliata. Inoltre, e' importante estendere le stesse tecniche anche alle sorgenti dati Web non-XML, per esempio ai milioni di pagine HTML che sono tuttora disponibili su Web (come anche ai dati in altri formati testuali); gli algoritmi e le tecniche sviluppate per XML verranno quindi estese al caso piu' generale - e molto piu' difficile - di HTML.
Nel contesto del Tema 2, l'obiettivo principale della ricerca sara' quello di definire un opportuno sistema per la interrogazione di sorgenti dati XML e HTML. Il punto di partenza e' rappresentato dall'adozione del modello di riferimento descritto nella "Base di Partenza Scientifica" del Modello A. Poiche' i link (sia XML-XLink che HTML) possono manifestare proprieta' che costituiscono importanti informazioni strutturali per il processo di interrogazione, lo studio di queste proprieta', formalizzate attraverso opportuni vincoli costituira' un approfondimento per il modello. Le sorgenti informative su Web sono generalmente autonome: possono subire modifiche, anche al livello intensionale, senza che queste vengano notificate al sistema di interrogazione. Pertanto, puo' verificarsi che la struttura di una sorgente Web differisca dalla descrizione, documentata attraverso i costrutti del modello, disponibile al sistema di interrogazione. Pertanto ci si propone di definire e sviluppare un nuovo linguaggio di interrogazione basato su tecniche innovative che da una parte consentano di utilizzare al meglio tutta l'informazione strutturale sulla sorgente disponibile al sistema, dall'altra permettano di rilevare e gestire opportunamente possibili modifiche a livello intensionale anche a tempo di esecuzione.
Infine, nell'ambito del Tema 3, l'unita' si propone di progettare e sviluppare uno strumento CASE per il processo di produzione (progettazione e implementazione) di sorgenti dati Web HTML e/o XML, ispirato al quadro metodologico di riferimento descritto nella "Base di Partenza Scientifica" del modello A. Lo strumento in oggetto dovra': 1) assistere il progettista nella definizione delle tre componenti principali della sorgente dati Web (dati, ipertesto, presentazione), 2) generare automaticamente il codice per la produzione della sorgente. Per la generazione della sorgente dati Web si utilizzera' il linguaggio Penelope, precedentemente sviluppato dalla unita' per la generazione di siti HTML, estendendolo opportunamente per la generazione di sorgenti XML-XSL.


2]  Unità di       Politecnico di MILANO
     Responsabile Letizia TANCA
     Rd+Ra      M£ 72 , Euro 37184,897 (dichiarata)
     Finanziamento   M£ 148 , Euro 76435,621
 
     Compito
     

TEMA 2: MODELLIZZAZIONE E INTERROGAZIONE DI SORGENTI DI DATI IN AMBIENTE WEB: I moderni sistemi informativi basati sulle reti devono spesso gestire dati organizzati in documenti con struttura meno rigida e regolare di quella richiesta dalle basi di dati; tali dati si dicono semistrutturati. Per interagire in modo efficace con questo tipo di fonti informative occorrono modelli dei dati che tengano conto delle speciali necessita' dell'attivita' di gestione di documenti.
XML e' un linguaggio per la marcatura di documenti che permette di specificare e usare un insieme di marcatori disegnati appositamente per rendere le proprieta' concettuali dell'informazione da pubblicare. In questo progetto proponiamo un nuovo linguaggio per modellare, estrarre e ristrutturare informazioni provenienti da documenti XML mediante un formalismo basato su grafi.
Nella prima fase della ricerca si studieranno il lessico per rendere in forma grafica il modello dei dati comune a questa proposta di progetto, e i formalismi di base per l'interrogazione di sorgenti XML. Nella seconda fase si studiera' una semantica del linguaggio che permetta all'utente di richiedere una aderenza piu' o meno precisa dei documenti inclusi nel risultato alle condizioni specificate nell'interrogazione. Inoltre, si realizzera' una prima versione del prototipo del linguaggio grafico.
Nella terza fase del progetto si precisera' la definizione del linguaggio, identificandone costrutti avanzati per la ristrutturazione di documenti, e studiando caratteristiche peculiari relative ai linguaggi di marcatura, come ad esempio la modellazione dell'ordine tra elementi e la trasformazione di stringhe. Si studieranno poi tecniche di ottimizzazione. Inoltre, si studiera' una versione fuzzy del linguaggio. La quarta fase vedra' l'unita' impegnata principalmente in attivita' di implementazione e sperimentazione.

TEMA 3: PRODUZIONE E SCAMBIO DI SORGENTI DI DATI IN AMBIENTE WEB: Quando un sito Web viene generato automaticamente, estraendo il suo contenuto da grandi sorgenti di dati, e` importante che il processo di
generazione venga personalizzato, in modo tale da tenere conto delle proprieta` e caratteristiche di ogni utente in un modo che rispetti gli obiettivi dell'applicazione. In quest'ottica, ci dedichiamo al problema della progettazione di siti Web in modo tale da offrire un'efficace realizzazione del cosiddetto "one-to-one Web delivery", con particolare attenzione al contesto dei siti Web "data-intensive". La ricerca studia anche tecniche e standard per assicurare e certificare la sicurezza, l'integrita` e la privatezza dei dati scambiati tra sorgenti di dati su siti Web.
L'obiettivo della prima fase sara` l'individuazione degli strumenti concettuali richiesti per la gestione della. Nella seconda fase, ci si concentrera` sulla progettazione di una prima versione del modello per descrivere la personalizzazione del sito. E` probabile che questo modello integrera' diversi componenti, ognuno dedicato a un particolare aspetto della personalizzazione. In questa fase realizzeremo un prototipo che permettera` al progettista di verificare la correttezza delle specifiche prodotte su parte dei servizi di personalizzazione definiti. Inoltre si studieranno le estensioni a XML necessarie a trattare aspetti di sicurezza. Nella terza fase concentreremo il lavoro sulla valutazione degli strumenti concettuali proposti nella seconda fase, prestando attenzione alle caratteristiche di facilita` d'uso, completezza, efficienza. Svilupperemo inoltre un modello di sicurezza per i dati presenti nel sito Web, partendo dalla specifica della personalizzazione e adattandola ai meccanismi di mantenimento della sicurezza. Nella quarta fase concluderemo la progettazione del modello di personalizzazione, e produrremo una versione finale del prototipo, in grado di elaborare la specifica della personalizzazione e di effettuare esperimenti con essa.


3]  Unità di       Universita' degli Studi di VENEZIA
     Responsabile Augusto CELENTANO
     Rd+Ra      M£ 27 , Euro 13944,336 (dichiarata)
     Finanziamento   M£ 54 , Euro 27888,673
 
     Compito
     

L'unita', coinvolta nel Tema 3 del Progetto, intende studiare la possibilita' di utilizzare XML come linguaggio per definire protocolli di interscambio dati tra sorgenti e applicazioni, considerando in particolare i punti di seguito dettagliati.
1. La pubblicazione di dati da database verso Web. Spesso, infatti, il materiale che forma i documenti pubblicati su Web e', almeno in parte, estratto da sorgenti di dati strutturate, come le basi di dati. Gli strumenti esistenti per l'estrazione di dati da una base di dati sono quasi sempre ad-hoc e spesso non forniscono al progettista del sito strumenti o metodologie generali. Si affrontera' il problema di costruire un modello generale applicabile a piu' casi di trasformazione, e si studieranno metodologie e strumenti per: (a) definire un "mapping" fra lo schema logico e le viste esterne di una base di dati e XML; (b) descrivere in XML le interrogazioni da effettuare per estrarre i dati e convertirli in XML; (c) effettuare l'interrogazione e produrre i relativi documenti XML; (d) simmetricamente, "mappare" documenti XML in un insieme strutturato di dati.
2. La trasformazione di dati scambiati tra applicazioni diverse (o tra sorgenti e applicazioni) usando XML come linguaggio di comunicazione. Se le applicazioni utilizzano XML come linguaggio nativo per descrivere i propri dati si definiranno criteri di compatibilita' fra le strutture definite da DTD differenti, e conseguentemente schemi di traduzione tra i documenti. Se le applicazioni non operano direttamente su documenti XML si studiera' la possibilita' di definire un mapping tra i piu' comuni sistemi di tipi dei linguaggi di programmazione e XML.
3. L'identificazione delle proprieta' che caratterizzano le informazioni scambiate in funzione di tipologie o classi di applicazioni per realizzare strumenti per definire DTD specializzati. A questo scopo si prenderanno in esame classi di dati ben formati per determinate applicazioni commerciali e su esse si applicheranno meccanismi di classificazione, astrazione e rappresentazione utili ad una loro organizzazione secondo gli standard XML.
4. L'uso di XML per definire le proprieta' relative all'interfacciamento tra sorgenti e applicazioni, per la rappresentazione di metadati per migliorare l'interoperabilita' tra sorgenti di dati semistrutturate, con componenti software sviluppati in accordo al modello degli oggetti distribuiti.
Il progetto sara' articolato in quattro fasi semestrali.
Durante la prima fase l'attivita' partira' dal consolidamento dello stato dell'arte sull'interfacciamento tra sorgenti e applicazioni e affrontera' l'analisi dei requisiti di interfacciamento tra sorgenti eterogenee e tra sorgenti e applicazioni con riferimento ad alcuni casi di studio selezionati.
Nella seconda fase si proporra' un modello per la definizione in XML di dati provenienti da sorgenti strutturate, e si realizzera' un prototipo sperimentale, studiando in particolare i meccanismi per rappresentare schemi di basi di dati e viste e interrogazioni su basi di dati.
La terza fase considerera' aspetti di integrazione e portera' alla realizzazione di un sistema prototipale per l'interfacciamento di sorgenti e applicazioni con l'obiettivo di scambiare dati effettuando verifiche di coerenza e trasformazioni di struttura per classi di applicazioni omogenee.
Nella fase finale del progetto il modello e il relativo prototipo saranno applicati ad un caso non banale, affrontando il problema della mantenibilita' di un insieme di sorgenti e applicazioni che possono richiedere periodiche revisioni negli schemi dei dati scambiati.


4]  Unità di       Universita' degli Studi di BRESCIA
     Responsabile Valeria DE ANTONELLIS
     Rd+Ra      M£ 21 , Euro 10845,595 (dichiarata)
     Finanziamento   M£ 40 , Euro 20658,276
 
     Compito
     

Obiettivo della ricerca dell'unita' dell'Universita' di Brescia e' lo sviluppo di un ambiente di strumenti di tipo semi-automatico per l'indicizzazione, la classificazione e integrazione di sorgenti di dati e siti XML in ambiente Web. Tale ambiente intende fornire supporto alla creazione di una interfaccia di interrogazione uniforme per la cooperazione di sistemi informativi basati su Web. Un problema cruciale per garantire l'efficacia delle attivita' di cooperazione e scambio dati, riguarda il disegno di meccanismi che consentano di organizzare lo spazio di ricerca dell'informazione in modo ottimale rispetto alle interrogazioni attese. A tale scopo, sono necessarie tecniche sofisticate di indicizzazione delle sorgenti che discriminino termini rilevanti e relativi pesi. Inoltre, sono necessari strumenti per la classificazione di meta-informazioni, ad esempio contenute in DTD, che consentano di raggruppare sorgenti che rispondano di stesse o simili strutture. Particolare rilevanza assumono in tale contesto problematiche di ricerca inerenti la costruzione di ontologie di concetti a supporto della classificazione automatica di documenti rispetto al contenuto informativo. Per gli aspetti di integrazione, a partire dai risultati della attivita' di ricerca svolta nel progetto INTERDATA MURST, saranno proposti metodi e strumenti per riconciliare sorgenti semi-strutturate che contengono documenti XML, e relativi schemi di descrizione, rappresentati mediante DTD.
Il programma di ricerca e' articolato nelle fasi descritte nel seguito.
Nella prima fase, si studieranno possibili estensioni ai modelli di classificazione basati su indici e gerarchie di concetti per trattare sorgenti di dati e siti XML in base a meta-informazioni disponibili. In particolare, si estendera' il modello di riferimento supportato dall'ambiente di ausilio al progettista ARTEMIS, per poter considerare proprieta' specifiche di sorgenti di dati e siti XML in ambiente Web.
La seconda fase sara' rivolta alla definizione di tecniche di indicizzazione di sorgenti di dati e siti XML in ambiente Web, in cui pesare termini in base alla rilevanza assunta nel rappresentare il contenuto informativo, e tecniche di classificazione di meta-informazioni per raggruppare sorgenti che rispondano di stesse o simili strutture. In particolare, si intende definire una metodologia per l'integrazione di sorgenti di dati e siti XML, che faccia uso di meta-informazioni su struttura e contenuto per trattare proprieta' di somiglianza e aspetti di schema-matching.
Nella terza fase si progetteranno strumenti di ausilio al progettista per la indicizzazione, classificazione e integrazione di sorgenti di dati e siti XML, basati sull'architettura dell'ambiente ARTEMIS.
La quarta fase sara' dedicata allo sviluppo di un ambiente prototipale di supporto al progettista per la indicizzazione, classificazione e integrazione di sorgenti di dati e siti XML in ambiente Web.


5]  Unità di       Universita' degli Studi di PISA
     Responsabile Giorgio GHELLI
     Rd+Ra      M£ 27 , Euro 13944,336 (dichiarata)
     Finanziamento   M£ 56 , Euro 28921,586
 
     Compito
     

L'unità è coinvolta nel tema 2 del progetto (Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web).
L'obiettivo specifico dell'unità è la definizione di un sistema di tipi e di un linguaggio per interrogare e manipolare dati semistrutturati provenienti dal Web, che abbia le seguenti caratteristiche: (a) flessibilità del sistema dei tipi, per rendere possibile la descrizione delle caratteristiche comuni dei dati in una collezione semistrutturata; (b) potenza espressiva del linguaggio di interrogazione, che deve permettere di esprimere interrogazioni sulla struttura dei dati, e di interrogare dati con una struttura irregolare; (c) apertura del sistema dei tipi e del linguaggio, che devono permettere di descrivere ed interrogare dati reperiti da fonti esterne, ed in particolare dal Web; analogamente, i dati prodotti dal linguaggio dovranno essere pubblicabili per l'accesso esterno, in particolare in formato XML. Il sistema dei tipi sarà una formalizzazione del modello di riferimento adottato dal progetto Data-X.
L'attività sarà organizzata come segue.
Il primo semestre sarà dedicato allo studio di un sistema di tipi, con i relativi operatori, che corrisponda al modello dei dati prescelto, ed alla definizione di un meccanismo che permetta l'integrazione, in questo sistema dei tipi, di dati provenienti da sorgenti esterne. In questa fase verranno prodotti due rapporti. Il primo rapporto descriverà un sistema di tipi e operatori, basato su tipi record, collezione, unione non etichettata e tipi ricorsivi, che sia in grado di rappresentare il modello dei dati che costituisce la base di partenza del progetto. Il secondo rapporto definirà un sistema di tipi in grado di descrivere i dati proveninenti da fonti esterne, basato fondamentalmente su tipi record con etichette ripetute, ed una nozione di corrispondenza tra questi tipi e quelli definiti nel precedente rapporto, da cui sia possibile derivare un'analoga corrispondenza sui dati.
Il secondo semestre sarà dedicato al disegno di un linguaggio ed al disegno di algoritmi per verificarne la correttezza dal punto di vista dei tipi, e verranno prodotti due rapporti. Il primo rapporto definirà un linguaggio di interrogazione e ristrutturazione ed un linguaggio per la costruzione di applicazioni su dati conformi al modello prescelto Il secondo rapporto definirà algoritmi per la verifica della correttezza statica di tale linguaggio, affrontando quindi i problemi della verifica di sottotipo e della verifica di tipo.
Durante il terzo semestre inizierà l'attivita di realizzazione del linguaggio definito, in parallelo alla definizione formale della sua semantica operazionale; proseguirà inoltre lo studio sull'accesso a dati da fonti esterne; è prevista anche in questo caso la produzione di due rapporti. Nel primo verrà definita la semantica operazionale del linguaggio proposto. Nel secondo è prevista la descrizione di ulteriori risultati relativamente all'accesso a dati provenienti da sorgenti esterne.
Il quarto semestre sarà dedicato ad attività di implementazione e sperimentazione del prototipo ed alla fondazione di studi su aspetti di ottimizzazione; la fase produrrà un rapporto ed un prototipo. Il prototipo realizzerà il linguaggio definito, per ciò che riguarda il controllo dei tipi, l'esecuzione di programmi ed interrogazioni, e la gestione di dati persistenti. È prevista anche la presenza di qualche meccanismo di accesso a dati esterni. Il rapporto sarà dedicato alla definizione di un modello di esecuzione delle interrogazioni finalizzato alla loro ottimizzazione.


6]  Unità di       Politecnico di TORINO
     Responsabile Elena Maria BARALIS
     Rd+Ra      M£ 24 , Euro 12394,966 (dichiarata)
     Finanziamento   M£ 48 , Euro 24789,931
 
     Compito
     

L'attivita` di questa unita` si colloca all'interno del Tema 1 (Analisi e Classificazione di Sorgenti di Dati in Ambiente Web) del progetto di ricerca Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web.
La classificazione e` il processo di selezione della categoria appropriata per un dato documento. Per esempio, permette di decidere in quale cartella inserire un messaggio di posta elettronica, oppure di quale argomento tratta un articolo o una pagina descritta mediante il linguaggio HTML.
L'attivita` di ricerca in questo progetto sara` dedicata alla classificazione di documenti descritti mediante il linguaggio XML. In particolare, a causa della natura parzialmente strutturata di questi documenti, si cerchera` di unire le tecniche classiche adottate nel settore dell'information retrieval per la classificazione di testo non strutturato e le tecniche adottate nel campo dell'estrazione di conoscenza (data mining) per la classificazione di dati strutturati.
Gli obiettivi principali di questo progetto sono:
- l'identificazione dell'informazione rilevante da considerare per la classificazione (per esempio, la struttura dei DTD)
- la definizione di un linguaggio per la configurazione del classificatore
- la definizione di algoritmi di classificazione, basati sulla natura parzialmente strutturata dei documenti XML
Per raggiungere gli obiettivi prefissati, si articolera` il lavoro di ricerca in quattro fasi semestrali per una durata complessiva di due anni di attivita`.
Prima Fase. Come primo passo, saranno analizzate le caratteristiche piu` significative dei principali classificatori proposti in letteratura. In parallelo, saranno identificate famiglie di formati DTD (Document Type Definition) che possono produrre una definizione adeguata della struttura dei documenti. Infine, sara` definita un'architettura di riferimento per il sistema di classificazione oggetto della ricerca.
Seconda Fase. In questa fase si definira` un linguaggio di configurazione per il classificatore, che avra` come obiettivi: (1) la definizione di un contesto applicativo; (2) la possibilita` per l'utente di specificare in modo dichiarativo il problema di classificazione.
Terza Fase. In questa fase sara` definito un algoritmo di classificazione adatto per le caratteristiche specifiche dei dati XML, che sara` basato sulla conoscenza della struttura dei documenti da classificare, descritta dai loro DTD. Come attivita` parallela, saranno identificati insiemi di addestramento di pubblico dominio, da utilizzare per verificare le prestazioni dell'algoritmo in dominii diversi.
Quarta Fase. In questa fase sara` realizzato il prototipo software di un classificatore, basato sui risultati delle fasi precedenti. Inoltre, in collaborazione con le altre unita` coinvolte nel Tema 1 del progetto, saranno valutati l'applicabilita` dei risultati e i possibili sviluppi futuri dell'attivita` di ricerca svolta.


7]  Unità di       Universita' degli Studi della CALABRIA
     Responsabile Sergio GRECO
     Rd+Ra      M£ 36 , Euro 18592,448 (dichiarata)
     Finanziamento   M£ 69 , Euro 35635,526
 
     Compito
     

L'attivita di ricerca dell'unita sara sviluppata secondo due linee fondamentali:
A. La definizione di un linguaggio per l'interrogazione e la ristrutturazione di collezioni di dati semistrutturati basato sull'utilizzo di path query estese; tale linea ricade all'interno del Tema 2 "Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente WEB";
B. L'estensione di protocolli efficienti per la trasmissione di immagini al caso di grosse moli di dati semistrutturati; il protocollo deve permettere di inviare i dati in base alla loro priorita e di poter riprendere la trasmissione in sessioni successive senza dover rispedire i dati gia trasmessi; tale linea ricade all'interno del Tema 3 "Produzione e scambio di Sorgenti di Dati in Ambiente WEB".
Il programma di ricerca della linea A prevede la definizione e la sperimentazione di un linguaggio per l'interrogazione di collezioni di documenti XML e la creazione automatica di nuovi documenti. A tale scopo e stato definito un modello di dati (orientato agli oggetti) per la descrizione di dati semistrutturati. Il modello prevede, tra l'altro, la presenza di primitive per la rappresentazione di insiemi di tipi di base, link di diverso tipo, tuple, collezioni e tipi unione. Un insieme di dati descritti attraverso il modello introdotto, puo essere rappresentato mediante un grafo che sara interrogato utilizzando un linguaggio appositamente progettato. Il linguaggio sara' basato sull'uso di espressioni regolari estese, per esprimere un ordinamento parziale sulle stringhe che definiscono cammini nel grafo, mentre la semantica formale potra essere definita in termini di graph grammars. Esso, inoltre dovra consentire di esprimere interrogazioni relative alla distanza fra le entita contenute all'interno dei documenti. In particolare, il linguaggio dovra permettere la ricerca di documenti rilevanti secondo una metrica stabilita dall'utente, quale ad esempio il numero di link, da un insieme di documenti dati. Inoltre, il criterio di distanza dovra essere definibile dinamicamente nella interrogazione. L'insieme dei documenti appartenenti al risultato di una interrogazione potra essere (parzialmente) ordinato sulla base della loro rilevanza rispetto ai criteri introdotti nell'interrogazione.
Il programma della linea B di ricerca riguarda la trasmissione di grosse mole di dati semistrutturati. Molte applicazioni WEB gestiscono grandi moli di informazioni organizzate su vari livelli di aggregazione e/o di astrazione e memorizzate in basi di dati di notevoli dimensioni. Tuttavia il loro trasferimento puo diventare estremamente oneroso oltre che dispersivo in quanto si costringe l'utente a ricevere dettagli che spesso non sono necessari e appesantiscono la lettura dell'informazione rilevante. La possibilita di definire vari livelli di aggregazione e astrazione e di assegnare a ciascuna gruppo una priorita che indichi la rilevanza dell'informazione contenuta, permette di definire nuovi protocolli che inviano i dati in base alla loro priorita e che possano riprendere la trasmissione in sessioni successive senza dover rispedire i dati gia trasmessi. Scopo di tale linea e' anche l'estensione di tale tecnica al caso di dat multidimensionali, cioe di relazioni i cui attributi contengono le dimensioni che descrivono le proprieta di un oggetto e le misure che memorizzano valori. L'attivita di ricerca della linea B e' finalizzata allo sviluppo di un prototipo per l'assegnazione delle priorita alle varie possibili aggregazioni dei dati e la loro trasmissione tramite un protocollo che estenda il PET e lo specializzi per la trasmissione di dati semistrutturati. Il protocollo garantira che l'interruzione del trasferimento non comporti la perdita di tutte le informazioni, ma soltanto di quelle a priorita piu bassa, che potranno essere successivamente ritrasmesse.