MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9909A77532_007


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web

Testo inglese

Data-X: Management, Transformation and Exchange of Data in a Web Environment

1.4 Coordinatore Scientifico del Programma di Ricerca

ATZENI PAOLO  
(cognome) (nome)  
Università degli Studi ROMA TRE Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E AUTOMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


atzeni@dia.uniroma3.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

GRECO SERGIO  
(cognome) (nome)  


Professore associato 25/11/1955 GRCSRG55S25B790M
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi della CALABRIA Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di ELETTRONICA, INFORMATICA E SISTEMISTICA
(settore scient.discipl.) (Dipartimento/Istituto)


0984/494751 0984/494713 greco@deis.unical.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
BASI DI DATI ; WORLD WIDE WEB ; XML ; MODELLI DI DATI ; LINGUAGGI

Testo inglese
DATABASES ; WORLD WIDE WEB ; XML ; DATA MODELS ; LANGUAGES


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Sergio Greco si e' laureato in Ingegneria presso l'Universita' della Calabria. Dopo aver conseguito la laurea e' stato prima borsista e successivamente
ricercatore presso il centro di ricerca del Crai (Rende).
In seguito e' stato ricercatore presso l'Universita' della Calabria.
Durante tale periodo e' stato visiting researcher presso il centro di ricerca dell'MCC di Austin (Texas) e presso il dipartimento di Computer Science dell'Universita' della California di Los Angeles.
Attualmente e' professore associato presso la Facolta' di Ingegneria dell'Universita' della Calabria.
E' responsabile del progetto europeo "Contact" nell'ambito del programma Adapt-bis.
La sua attivita' di ricerca ha riguardato principalmente le basi di dati, la programmazione logica e la complessita' computazionale.
Su tali temi ha pubblicato piu' di 60 articoli su riviste e conferenze internazionali.

Testo inglese

Sergio Greco received its laurea degree from University of Calabria.
Next he was researcher at CRAI, a computer science research consortium.
Next he was assistant professor at the University of Calabria.
During this time he was visiting researcher at the research center of Microelectronics and Computer Center (MCC) of Austin (Texas) and at the Computer Science Department of University of California at Los Angeles.
Currently, he is an associate professor at the faculty of Engineering at the University of Calabria.
He is project manager of the Adapt-bis project "Contact" financed by the European community.
His research interests include databases, logic programming and computer science theory.
He is coauthor of more than 60 papers appeared on international journals and
proceedings of international conferences.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. BUCCAFURRI F., GRECO S., SACCA' D., "The Expressive Power of Unique Total Stable Model Semantics" , Rivista: Proceedings of the 24-th International Colloquium on Automata Languages and Prog , (1997) .
  2. GRECO S., "Non-determinism and weak constraints in Datalog" , Rivista: New Generation Computing , Volume: 16 (4) , pp.: 373-396 , (1998) .
  3. GRECO S., ZANIOLO C., "Greedy Algorithms in Datalog with Choice and Negation" , Rivista: Proc. Int. Joint Conference and Symposium on Logic Programming , (1988) .
  4. GRECO S., SACCA' D., "Complexity and Expressive Power of Deterministic Semantics for Datalog(not)" , Rivista: Information & Computation , (1999) Prossima Pubblicazione .
  5. FLESCA S., GRECO S., "Partially Ordered Regular Languages for Graph Queries" , Rivista: Proceedings of the 26-th International Colloquium on Automata Languages and Prog , (1999) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  GRECO  SERGIO  ELETTRONICA, INFORMATICA E SISTEMISTICA  Prof. associato  K05A  4  4
2  SACCA'  DOMENICO  ECOLOGIA  Prof. ordinario  K05A  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  BUCCAFURRI  FRANCESCO  REGGIO CALABRIA  INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI  Ricercatore  K05A  4  8
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. ELETTRONICA, INFORMATICA E SISTEMISTICA  1999 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. BASTA  STEFANO  ELETTRONICA, INFORMATICA E SISTEMISTICA  1997 
2. FLESCA  SERGIO  ELETTRONICA, INFORMATICA E SISTEMISTICA  1996 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. laurea in ingegneria  24  12 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Linguaggi e tecniche per l'interrogazione e la trasmissione di dati semistrutturati

Testo inglese

Languages and techniques for querying and transmitting semistructured data

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

L'unita' e' coinvolta nei temi 2 ( Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web) e 3 (Produzione e Scambio di Sorgenti di Dati in Ambiente Web) del progetto.
L'attività di ricerca sarà quindi concentrata su due linee principali, identificate nel seguito come linea A e linea B, aventi come scopo, rispettivamente, la definizione di un linguaggio per l'interrogazione e la ristrutturazione di dati semistrutturati e la definizione di protocolli efficienti per la trasmissione di grosse moli di dati.
Per quanto riguarda la linea A, recentemente sono stati definiti diversi linguaggi e sistemi per l'interrogazione e la manipolazione di dati semistrutturati, cioè di collezioni di dati che non hanno una struttura rigidamente fissata come, ad esempio, quelli disponibili sul Web (Abiteboul, 1997). Tali linguaggi sono, nella maggior parte dei casi, estensioni di SQL (Abiteboul et al., 1997). Alcuni di questi, detti linguaggi di prima generazione, quali W3QL (Konopnicki, Shmueli, 1995) e WebSQL (Mendelzon et al., 1996) assumono che il Web sia un insieme di documenti connessi tra di loro e ciascun documento contenga un numero fissato di informazioni (URL, Titolo, Testo, ecc.), mentre altri, detti linguaggi di seconda generazione, come ad esempio i linguaggi Lorel (Abiteboul et al., 1997), UnQL (Buneman et al., 1996), Strudel (Fernandez et al., 1998) tentano di rappresentare la struttura interna dei documenti, di solito in formato HTML. Tuttavia, entrambe le classi di linguaggi non sono soddisfacenti a causa della quasi totale mancanza di struttura all'interno dei documenti HTML. Per superare i limiti derivanti dall'uso del linguaggio HTML per la creazione di documenti, recentemente e' stato proposto come nuovo standard XML.
XML e' particolarmente adatto per rappresentare dati semistrutturati in quanto i documenti sono costituiti da aggregazioni di unità indipendenti, chiamate entità, che contengono l'informazione. Inoltre, XML supporta la possibilità di definire tipi di documento (DTD) che specificano la struttura. L'introduzione di XML ha portato alla definizione di nuovi linguaggi basati sull'utilizzo di modelli più fortemente tipati che hanno permesso di applicare risultati e tecniche precedentemente definite per le basi di dati orientate agli oggetti. Molti dei modelli proposti sono basati sull'utilizzo di diversi tipi unione per il trattamento delle irregolarità all'interno dei dati semistrutturati. Alcuni dei linguaggi e sistemi implementati per la gestione di dati semistrutturati sono stati, recentemente, estesi per la gestione di documenti XML.
Una seconda limitazione e' costituita dal fatto che tali linguaggi non permettono il controllo della ricerca in un fissato spazio. Infatti, la maggior parte dei linguaggi proposti fa uso di espressioni regolari per specificare lo spazio di ricerca ma non permette di specificare come esplorare tale spazio per cercare un numero limitato di soluzioni. Per superare tali limitazioni e' stato proposto un linguaggio basato sull'uso di espressioni regolari estese che permettono di definire dinamicamente priorità tra i diversi cammini utilizzati nell'esplorazione di documenti presenti nel Web. Tale linguaggio appartiene alla classe dei linguaggi della prima generazione in quanto assume che i documenti abbiano una struttura 'piatta' (Flesca, Greco, 1999).
Un ulteriore limite di tali linguaggi è dato dall'impossibilità di esprimere interrogazioni di documenti sulla base di una 'distanza' da documenti dati, espressa dinamicamente all'interno delle interrogazioni. Infatti, sebbene alcuni sistemi come, ad esempio, Lore, permettono di esprimere interrogazioni sulla base della distanza tra documenti, la metrica usata per calcolare tale distanza è fissata, non permette di poter definire tali criteri dinamicamente all'interno delle interrogazioni. Ad esempio, si consideri un insieme di documenti contenenti informazioni su città aventi al loro interno collegamenti a documenti di regioni e nazioni. Una interrogazione del tipo "trova le città capoluogo di provincia 'più vicine' alle città Assisi e Orvieto" restituirebbe l'insieme delle città italiane con la stessa distanza dall'insieme di partenza.
Per quanto riguarda la trasmissione di grosse moli di dati semistrutturati(linea B), non sono state fin qui studiate tecniche specializzate particolarmente efficienti per il trattamento di gerarchie di priorità. I protocolli attuali riguardano essenzialmente la trasmissione di immagini video in forma digitale. MPEG (Le Gall, 1991) è uno standard diffusissimo che permette una elevata compressione attraverso l'invio dei dati completi solo per alcune immagini (quadri di tipo I) mentre per le altre vengono inviati solo quei dati che permettono la loro ricostruzione (quadri P) o interpolazione (quadri B). Dato che i quadri I sono necessari per determinare gli altri tipi di quadri, essi hanno la priorità massima; una priorità più bassa è mantenuta dai quadri P e quelli B hanno una priorità ancora più bassa. Lo standard MPEG tuttavia non indica come trasmettere un messaggio in modo che le porzioni a più elevata priorità siano recuperate per prima. Una soluzione interessante è stata fornita in (Shacham, 1992) che partiziona il messaggio in vari livelli secondo le priorità e invia solo quei livelli che il destinatario è in grado di ricevere sulla base della banda trasmissiva disponibile. Recentemente è stato proposto un protocollo per la gestione delle priorità , il PET (Albanese e Luby, 1996), che invia sempre tutti i livelli ma l'eventuale perdita di pacchetti a causa dell'insufficienza della banda comporterà la perdita dei soli dati a priorità più bassa. L'idea centrale del PET è che ogni pacchetto debba contenere dati per tutta una sequenza di quadri con un peso diverso a secondo della priorità dei quadri. Supponiamo che si vogliano trasmettere i dati a1, b1, a2, b2, a3, b3 tali che a1 e b1 abbiano priorità maggiore di a2 e b2 e questi a loro volta abbiano priorità maggiore degli ultimi due. Il codice PET costruisce i seguenti tre polinomi:
P1(X)= a1 + b1 X
P2(X)= a21 + a22 X + b21 X2 + b22 X3
P3(X)= a31 + a32 X + a33 X2 + b31 X3 + b32 X4 + b33 X5
dove a2= a21*a22, b2= b21*b22, a3= a31*a32*a33, b3= b31*b32*b33, '*' è l'operatore di concatenazione per cui i valori di P2 e P3 richiedono la metà e un terzo rispettivamente dello spazio di memorizzazione dei valori di P1. Il PET invia i seguenti pacchetti:
0, P1(0), P2(0), P3(0)
1, P1(1), P2(1), P3(1)
2, P1(2), P2(2), P3(2)
3, P1(3), P2(3), P3(3)
4, P1(4), P2(4), P3(4)
5, P1(5), P2(5), P3(5)
cosicché i valori a1 e b1 sono calcolati non appena siano stati ricevuti due qualsiasi pacchetti, a2 e b2 non appena siano stati ricevuti quattro qualsiasi pacchetti e a3 e b3 non appena siano stati ricevuti tutti e sei i pacchetti.
Nell'ultimo anno è stata avviata dall'unità in collaborazione con l'istituto di ricerca ICSI dell'Università di Berkeley una linea di ricerca per estendere il codice MPEG e quello PET al trasferimento di dati semistrutturati in modo che l'interruzione del trasferimento di pacchetti non comporta perdere tutte le informazioni ma soltanto quelle a priorità più bassa che saranno eventualmente recuperate con la trasmissione successiva dei pacchetti mancanti.

Testo inglese

The team of the University of Calabria is involved in the Themes 2 (Modeling and querying data sources in a WEB environment) and 3 (Production and exchange of data sources in a WEB environment).
Thus, the research will be carried out along two main lines identified in the following as line A and line B. The aim of the two lines are respectively, the definition of a language for querying and restructuring semistructured data and the definition of new protocols for the efficient transmission of very large pieces of semistructured data.
Concerning line A, recently, several languages and systems for querying and restructuring semistructured data, such as those available on the Web, have been proposed (Abiteboul, 1997). Most of these languages are extensions of SQL (Abiteboul et al., 1997). Some of these languages, such as W3QL (Konopnicki, Shmueli, 1995) ) and WebSQL (Mendelzon et al., 1996), assume that each document contains a fixed number of information (fields), whereas others, try to represent the internal structure of HTML documents (Abiteboul et al., 1997), (Fernandez at al., 1997). These classes of languages are usually identified as first and second generation languages. However, both classes of languages are not satisfactory since HTML documents lacks of structured information.
To overcome this limitation, a new standard for Web documents has been recently proposed, called XML. XML is particularly suited to represent semistructured data since XML documents are aggregations of independent information units, called entities. The introduction of XML has influenced the definition of new languages based on the use of strongly typed data models which have permitted to apply results and techniques previously defined for object oriented databases. Most of the proposed data models are based of different union types to manage irregularities contained into semistructured data. Some of the languages and systems for semistructured data have been, recently, extended to manage also XML documents.
However, these languages are still limited mainly for the aspects concerning the exploration of collection of documents (Flesca e Greco, 1999). In particular, the main limitation is the impossibility to control the search of documents in a given space. Indeed, most of the languages proposed uses regular expressions to specify the search space but they do not permit to specify how to explore such a space to search a fixed number of solutions (documents). To overcome these limitations a languages based on extended regular expressions was proposed. This language permit to express dynamically priorities among paths used to explore documents in the Web. The language can be characterized as a first generation language since it is based on the assumption that documents have a flat structure. A further limitation of these languages is the impossibility to express queries ranking documents based on their proximity and to express proximity criteria dynamically (Goldman et al., 1998). Indeed, such systems such as Lore, allow the possibility to express queries based on distances among documents, but the criteria used to measure the distance between two documents is fixed.
Concerning the transmission of large semistructured data sets (line B), so far there are no specialized, efficient techniques to handle priority hierarchies. Present protocols mainly deal with the transmission of images in a digital format. In particular, MPEG (Le Gall, 1991) is a widely used technique for encoding digital video which transmits the whole data only for selected frames (frames of type I) while, for the other frames, it only sends those data which are necessary for their reconstruction (frames P) or their interpolations (frames B). Since the frames I are crucial to construct all other frames, they have the highest priority; a lower priority is hold by the frames P and a even lower priority is retained by the frames B. MPEG does not specify how to transmit a message over a network so that the higher priority parts of the message are recovered first. An interesting solution has been given in (Shacham, 1992) which partitions the message into different layers according to the priorities and only sends those layers that the recipient can receive on the basis of the available bandwidth. Recently, a new protocol for handling priorities, PET, has been proposed in (Albanese e Luby, 1996); PET always sends all layers but in such a way that the ones with higher priorities are guarantied to arrive while the others require more time or may be even lost if there is not enough bandwidth. The central idea of PET is that each packet must contain data for an entire sequence of frames but with a different weight in the representation: the higher is the priority of a frame, the larger is the size of memory used to store the frame. Suppose we want to transmit the data a1, b1, a2, b2, a3, b3 such that a1 e b1 have higher priority than a2 and b2; a2 and b2, in turn, have higher priority than a3 and b3. PET constructs the following three polynomials:
P1(X)= a1 + b1 X
P2(X)= a21 + a22 X + b21 X2 + b22 X3
P3(X)= a31 + a32 X + a33 X2 + b31 X3 + b32 X4 + b33 X5
where a2= a21*a22, b2= b21*b22, a3= a31*a32*a33, b3= b31*b32*b33, '*' is the concatenation operator so that the coefficients of P2 and P3 need one half and one third, respectively, of the size necessary to store the values of P1. PET sends the following packets:
0, P1(0), P2(0), P3(0)
1, P1(1), P2(1), P3(1)
2, P1(2), P2(2), P3(2)
3, P1(3), P2(3), P3(3)
4, P1(4), P2(4), P3(4)
5, P1(5), P2(5), P3(5)
so that a1 e b1 can be computed upon the receival of any two packets whereas four packets are needed for computing a2 and b2 and all six packets for a3 and b3.
In the last year University of Calabria's team and researchers of the institute ICSI of the University of Berkeley have started some research activities on extending MPEG and PET for transferring semistructured data in such a way that interrupting the transmission does not imply to loose all information but only those pieces with lower priorities; moreover the lost information can be later recovered by sending the missing packets.

2.2.a Riferimenti bibliografici

- (Abiteboul, 1997) S. Abiteboul "Querying Semistructured Data" Proceedings of the 6th International Conference on Database Theory (ICDT'97), 1997.
- (Abiteboul e Vianu, 1997) S. Abiteboul, V. Vianu "Queries and Computation on the Web", Proceedings of the 6th International Conference on Database Theory (ICDT'97), 1997.
- (Abiteboul et al., 1997) S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. L. Weiner: The lorel query language for semistructured data, Journal of Digital Library, 1, 1997.
- (Fernandez at al., 1997) M. Fernandez, D. Florescu, A. Levy, D. Suciu "A query language for a web-site management system", In SIGMOD Record, 26(3):4-11, 1997.
- (Flesca e Greco, 1999) S. Flesca, S. Greco "Partially Ordered Regular Languages for Graph Queries", In Proceedings of the 26-th International Colloquium on Automata Languages and Programming (ICALP'99), 1999.
- (Goldman et al., 1998) R. Goldman, N. Shivakumar, S. Venkatasubramanian, H. Garcia-Molina "Proximity Search in Databases", In Proceedings of the 24th International Conference on Very Large Data Bases (VLDB'98), 1998.
- (Mendelzon et al, 1996) A.Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", In Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.
- (Mendelzon e Milo, 1997) O. Mendelson, T. Milo "Formal Methods of Web Queries", Proc. PODS, 1997.
- (Konopnicki e Shmueli, 1995) D. Konopnicki, O. Shmueli "W3QS: A query system for the World Wide Web", Proc. VLDB, 1995.
- (Le Gall, 1991) D. Le Gall, "MPEG: A video compression standard for Multimedia applications", CACM, Vol 34, No 4, April 1991, 47-58
- (Albanese e Luby, 1996) A. Albanese and M. Luby, ``PET - Priority Encoding Transmission", in High Speed Networking for Multimedia Applications , Kluwer Academic Publishers, Boston, March 1996.
- ( Shacham, 1992) N. Shacham, "Multicast Routing of Hierircal Data, Proc. of ICC'92, Chicago 1992.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'unita' e' coinvolta nei temi 2 ( Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web) e 3 (Produzione e Scambio di Sorgenti di Dati in Ambiente Web) del progetto.
La ricerca sarà quindi sviluppata secondo due linee fondamentali:
A. La definizione di un linguaggio per l'interrogazione e la ristrutturazione di dati semistrutturati basato sull'uso di espressioni regolari estese per esplorare efficientemente collezioni di documenti distribuiti su vari siti WEB - tale linea ricade all'interno del Tema 2 "Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente WEB";
B. La estensione di recenti protocolli efficienti per la trasmissione di immagini con priorità al caso di grosse moli di dati semistrutturati definiti in XML che debbono essere ricevuti in tempi stretti anche a costo di eventualmente trascurare alcune porzioni di dati di minor rilievo; il protocollo deve permettere di inviare i dati in base alla loro priorità e di poter riprendere la trasmissione in sessioni successive senza dover rispedire tutti i dati già trasmessi - tale linea ricade all'interno del Tema 3 "Produzione e Scambio di Sorgenti di Dati in Ambiente WEB".
Il programma di ricerca della linea A prevede la definizione e la sperimentazione di un linguaggio per l'interrogazione di documenti semistrutturati (ad esempio documenti XML) e la creazione automatica di nuovi documenti a partire da documenti esistenti (ristrutturazione di documenti). Per tale scopo e' necessario definire un modello di dati che permetta di descrivere dati semistrutturati di diversa natura quali, ad esempio, i documenti XML. In particolare, il modello di riferimento e' un modello orientato agli oggetti complessi in cui ciascuna risorsa di dati e' vista come un oggetto, opportunamente identificato (dal suo URL o URI), e con una serie di attributi. Per la costruzione dei tipi, il modello prevede, tra l'altro, primitive per rappresentare insiemi di tipi di base, link di diverso tipo, tuple, collezioni e tipi unione.
Un insieme di dati descritti attraverso il modello introdotto, può essere rappresentato mediante un grafo (database graph) che potrà essere interrogato attraverso un linguaggio appositamente progettato. Il linguaggio sarà basato sull'uso di espressioni regolari estese, per esprimere un ordinamento parziale sulle stringhe che definiscono cammini nel grafo, mentre la semantica formale potrà essere definita in termini di graph grammars. Un secondo aspetto del linguaggio sarà costituito dalla possibilità di esprimere relazioni di "vicinanza" tra documenti. In particolare, il linguaggio dovrà permettere la ricerca di documenti rilevanti secondo una metrica stabilita dall'utente quale ad esempio la "distanza" (numero di link) da un insieme di documenti dati. Inoltre, il criterio di distanza dovrà essere definibile dinamicamente nella interrogazione. L'insieme dei documenti appartenenti al risultato di una interrogazione potrà essere (parzialmente) ordinato sulla base della loro rilevanza rispetto ai criteri introdotti nell'interrogazione.
Il programma della linea B di ricerca riguarda la trasmissione di grosse mole di dati semistrutturati, definiti in XML su siti WEB , a seguito di interrogazioni o apposite transazioni di scambio di dati. Molte applicazioni WEB gestiscono grandi moli di informazioni organizzate su vari livelli di aggregazione e/o di astrazione e memorizzate in basi di dati di notevoli dimensioni per cui il trasferimento di dati può diventare estremamente oneroso in termini di occupazione di banda oltre che dispersivo in quanto si costringe l'utente a ricevere dettagli che spesso non sono necessari e solo appesantiscono la lettura dell'informazione rilevante. La recente introduzione di XML e una adeguata combinazione della sua potenzialità di rappresentare dati semistrutturati con la tecnologia delle basi di dati costituisce una notevole opportunità per la realizzazione di applicazioni WEB in cui sia chiara e di facile e flessibile consultazione sia la struttura dell'informazione di interesse sia le varie istanze dei dati opportunamente organizzate a vari livelli di aggregazione e/o di astrazione. La possibilità di definire livelli di aggregazione e astrazione tramite XML è particolarmente efficace nel caso in cui i dati gestiti siano di tipo multi-dimensionale, cioè di relazioni in cui gli attributi sono di due tipi: (i) le dimensioni che descrivono le proprietà di un oggetto, e (ii) le misure che memorizzano valori. Ad esempio, nella relazione multi-dimensionale VENDITE (Prodotto, Cliente, DataVendita, QuantitàVenduta, Introito) i primi tre attributi sono le dimensioni mentre gli ultimi due sono misure. Le vendite possono essere aggregate attraverso il calcolo delle somme delle quantità vendute e degli introiti per opportuni gruppi di vendite (ad esempio per prefissate classi di prodotti, categorie di clienti e intervalli di tempo) ottenendo così varie modalità possibili di presentazione dei dati. Evidentemente i dati a livelli di aggregazione maggiore saranno quelli con più alta priorità in modo che possano essere scambiati velocemente e comunque prima del trasferimento dei dati di dettaglio che può addirittura essere annullata se l'informazione aggregata è sufficiente o rinviata a sessioni successive.
Come risultato finale della linea B di ricerca verrà realizzato un prototipo di un sistema per l'assegnazione delle priorità alle varie possibili aggregazioni dei dati in una applicazione WEB e per la trasmissione dei dati tramite un protocollo che estenda il PET e lo specializzi al caso di dati semistrutturati in modo da gestire le priorità. Una proprietà importante del protocollo sarà che l'interruzione del trasferimento di pacchetti (operazione drastica spesso frequente in presenza di congestioni della rete) non comporterà perdere tutte le informazioni ma soltanto quelle a priorità più bassa che potranno essere eventualmente completate con la trasmissione successiva dei pacchetti mancanti.
Le attività del progetto saranno articolate in 4 fasi, ciascuna della durata di 6 mesi. Ciascuna fase consiste di 2 attività distinte che fanno riferimento alle due linee del progetto.
FASE 1-A:
Verranno analizzati i linguaggi per l'interrogazione di dati semistrutturati quali, ad esempio, Lorel (università di Stanford), ed StruQL (AT&T labs). In questa fase verranno altresì analizzati i linguaggi per l'interrogazione di Basi di dati rappresentabili mediante grafi ("Graph Databases") e verrà definito, insieme alle altre unità, il modello dei dati di riferimento.
PRODOTTI:
T2.1-R1 (in collaborazione con le altre unità): rapporto con la definizione del modello dei dati di riferimento;
T2.1-R4 : rapporto contenente l'analisi dei linguaggi attuali e la definizione dei requisiti dei linguaggi di interrogazione;
FASE 1-B:
Verranno adattate e estese le tecniche di trasmissione di dati con priorità in modo da specializzarli per il caso di dati semistrutturati definiti in XML e in cui siano stati introdotti vari livelli di astrazione e aggregazione a cui corrispondono priorità differenti.
PRODOTTO:
T3.1-R5: Rapporto sull'utilizzo di tecniche basate su priorità per la trasmissione di dati definiti in XML.
FASE 2-A:
Verrà definito un nuovo linguaggio per l'interrogazione di dati descritti mediante il modello dei dati definito nella Fase 1.
PRODOTTI:
T2.2-R1 (in collaborazione con le altre unità): rapporto con la definizione della sintassi e della semantica di una prima versione del linguaggio di interrogazione per sorgenti XML descritte secondo il modello di riferimento;
T2.2-R4 (in collaborazione con le altre unità): rapporto contenente la definizione dell'architettura del prototipo del linguaggio;
FASE 2-B:
Le tecniche di trasmissione di dati con priorità verranno implementate e incluse come strumenti in una coppia servente-cliente WEB connessi attraverso una rete la cui banda è opportunamente controllabile in modo da valutare il comportamento in varie situazioni di congestione.
PRODOTTO:
T3.2-S7: Primo prototipo del sistema per la trasmissione di dati XML con priorità.
FASE 3-A:
Verrà implementato un prototipo del linguaggio definito nella fase precedente e verrà definita una estensione del linguaggio per la ristrutturazione dei dati.
PRODOTTI:
T2.3-S1 (in collaborazione con le altre unità): prototipo del linguaggio di interrogazione per siti Web
FASE 3-B:
Il prototipo verrà sperimentato in varie situazioni, con varie tipologie di reti e di clienti in modo da avere una validazione approfondita dei limiti e vantaggi delle tecniche proposte in modo da individuare possibili miglioramenti e definire gli scenari di utilizzo ottimale.
PRODOTTO:
T3.3-R5: Rapporto sulla sperimentazione delle tecniche di trasmissione di dati XML con priorita'.
FASE 4-A:
Verrà implementato un prototipo del linguaggio esteso per sperimentare la sua utilità nella soluzione di problemi di interesse pratico.
PRODOTTI:
T2.4-S1 (in collaborazione con le altre unità): secondo prototipo del linguaggio di interrogazione;
T2.4-R2 (in collaborazione con le altre unità): rapporto sulla sperimentazione del prototipo;
T2.4-R4 (in collaborazione con le altre unità): rapporto conclusivo: sviluppi futuri della ricerca e applicabilità dei risultati.
FASE 4-B:
Sulla base delle sperimentazioni della Fase 3, il prototipo sarà revisionato e risottoposto a ulteriori sperimentazioni e valutazioni; saranno anche valutati i possibili sviluppi futuri della ricerca, in particolare la possibilità di applicazioni industriali delle tecniche di trasmissione proposte.
PRODOTTI:
T3.4-S5: Revisione del prototipo del sistema per la trasmissione di dati XML con priorità
T3.4-R5 (in collaborazione con le altre unità): Rapporto conclusivo sul Tema 3: sviluppi futuri della ricerca e applicabilita' dei risultati.

Testo inglese

The team of the University of Calabria is involved in the Themes 2 (Modeling and querying data sources in a WEB environment) and 3 (Production and exchange of data sources in a WEB environment).
Thus, the research will be carried out along two main lines:
(1) The definition of a language for querying and restructuring semistructured data, based on regular expressions suitably extended to enable efficient navigations through documents distributed on various WEB sites - this line is part of the Topic 2 "Modeling and querying data sources in a WEB environment";
(2) The extension of recent efficient protocols for image transmission based on priorities to the case of very large pieces of semistructured XML data which must be received within very restricted time limits, possibly by discarding less relevant data; the protocol therefore transmits data according to their priorities and is able to recovery loss data in subsequent sessions without having to retransmit all data - this line is part of the Topic 3 "Production and exchange of data sources in a WEB environment".
The research of line A is based on the definition and the experimentation of a language for querying and restructuring semistructured data such as XML documents. A data model to describe different types of semistructured data will be first defined. In particular, the new data model is an object-oriented data model where each data source is an object having an identifier (URL or URI) and a set of attributes. In order to define new data types, the data model provides, among others, primitives to represent sets of base types, links of different types, collections and union types.
A set of data described by means of the new data model, can be also represented by means of a (database) graph which could be queried by means of a language designed for graph databases. The language will be based on the use regular expressions extended to express a partial order among the strings corresponding to paths in the graph; the formal semantics could be defined in terms of graph grammars.
A further characteristic of the language will be the possibility to express proximity relations among documents. In particular, the language should permit to search documents on the base of criteria defined by the user, such as the minimal distance (number of links) from a given set of nodes.
Further, the criteria should be definable dynamically in the query. The set of documents computed by a query should be partially ordered on the base of their relevance with respect to the criteria introduced in the query.
The program of the research line B concerns the transmission of large semistructured data sets, defined in XML on WEB sites, which are the results of queries or ad-hoc transactions for data exchange. Many WEB applications manage large pieces of information, organized on various layers of aggregations and/or abstractions and stored in large databases so that data transmission may result very costly in terms of band consumption as well as quite dispersive for it may oblige the user to collect details which are not necessary and, besides, hide the relevant information. The recent introduction of XML and the combinition of it expressive power for semistructured data definition with the database technology represents a remarkable opportunity for the implementation of WEB applications with clear and flexible data structures and suitable organizations of data at various levels of aggregations and/or abbstractions. The possibility of using XML to define such levels is particularly effective when the data are multi-dimensional, thus they are stored in relations with two types of attributes: (i) the dimensions describing the properties of an object, and (ii) the measures for storing values. For instance, given the multi-dimensional relation SALES (Product, Customer, DateOfSale, Quantity, Takings), the first three attributes are the dimensions and the last two are the measures. The sales can be aggregated by summing the quantities or the takings for suitable groups of sales (e.g., for given product classes, customer categories, and time periods) thus obtaining several possible data presentation layouts . Obviously, the data at the higher layers of aggregations will have higher priorities so that they can be exchanged very quickly and definitely before transmitting detail data. The latter transmission can be posponed to next sessions or even cancelled if aggregata data turn out to carry the wanted information.
The final result of the research line B will be a prototype of a system for assigning priorities to data of a WEB application according to their level of aggregation/abstraction and for transmitting such data by means of a protocol extending PET to wotk with semistructured data with priorities. An important property of the protocol will be that a possible interruption in the transmission (a situation which often arises in congested networks) will not cause to loose all data but only with lower priorities. Lost data can be eventually recovered with a later transmissions of the missing packets.
The activities of the research will be organized into 4 phases, each one of 6-month duration:
PHASE 1-A
Query languages for semistructured data, such as , Lorel (università di Stanford), ed StruQL (AT&T labs) and for graph databases will be analyzed. In this phase will be also defined the new data model to describe semistructured data.
PRODUCT:
T2.1-R1 (in cooperation with the other project teams): report containing the definition of data model used to represent semistructured data;
T2.1-R4 : report analyzing languages actually available and defining the requirements for the new query language;
PHASE 1-B
Techniques for the transmission of data with priorities will be extended in order to handle semistructured data defined in XML, organized in various layers of aggregations/abstractions: such layers will correspond to various levels of priorities.
PRODUCT:
T3.1-R5: Report on the usage of techniques for the transmission of XML data with priorities.
PHASE 2-A
A new language for querying semistructured data described by means of the model introduced in the previous phase will be defined.
PRODUCT:
T2.2-R1 (in cooperation with the other project teams): report on the definition of the syntax and semantics of a first version of the language for XML data described using the reference model;
T2.2-R4 (in cooperation with the other project teams): report on the architecture of a prototype of the language.
PHASE 2-B:
Techniques for the transmission of data with priorities will be implemented and added as tools in a pair WEB server-client, connected through a network whose band can be suitably tuned so that performances can be evaluated under varios scenarios of congestion.
PRODUCT:
T3.2-S7: First prototype of the system for the transmission of XML data with priorities.
PHASE 3-A
A prototype of the language defined in the previous phase will be implemented. Furthermore, in this phase will be defined an extension of the language for data restructuring.
PRODUCT:
T2.3-S1 (in cooperation with the other project teams): prototype of the language for querying semistructured data on the Web;
PHASE 3-B:
The prototype will be experimented in various situations, with different schemes of networks e classes of users in order to obtain a thorough validation of the ins and outs of the proposed techniques; as a results, possible improvements of the techniques as well as scenarios of optimal utilizations will be singled out.
PRODUCT:
T3.3-R5: Report on the experimentation of the techniques of the transmission of XML data with priorities.
PHASE 4-A
A prototype of the extended language will be implemented and experimented in the solution of practical problems.
PRODUCT:
T2.4-S1 (in cooperation with the other project teams): second prototype of the query language;
T2.4-R2 (in cooperation with the other project teams): report on the experimentation on the use of the query language;
T2.4-R4 (in cooperation with the other project teams): Final report on Theme 2: further research and result exploitation..
PHASE 4-B:
Following the sperimentations of Phase 3, the prototype will be revisioned and further evaluated; moreover, future possible evolutions of the research will be analyzed and the exploitation of the results towards industrial application will be investigated.
PRODUCTS:
T3.4-S5: Revision of the prototype for the transmission of XML data with priorities.
T3.4-R5 (in cooperations with the other project teams): Final report on the Theme 3: further research and result exploitation.

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  1998PC-Server CPU Intel Pentium II, SO Windows NT  PC-Server, CPU Intel Pentium II, Windows NT OS 
2.  1998PC con CPU Intel Pentium 200, SO Windows 95  PC, CPU Intel Pentium 200, Windows 95 OS 
3.  1998PC con CPU Intel Pentium 200, SO Windows 95  PC, CPU Intel Pentium 200, Windows 95 OS 
4.  1998PC con CPU Intel Pentium 200, SO Windows 95  PC, CPU Intel Pentium 200, Windows 95 OS 
5.  1992WS Sun Sparc 10, SO Solaris 2.5  Sun Sparc 10, Solaris 2.5 OS 


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 25  12.911  Personal computers, stampanti  Workstations, printers 
Grandi Attrezzature        
Materiale di consumo e funzionamento 2.582  Materiale di cancelleria, carta per stampante, toner  Stationery, printer paper, toner 
Spese per calcolo ed elaborazione dati        
Personale a contratto 24  12.395  Collaboratore per lo sviluppo dei prototipi previsti dal progetto  Specialist to be involved in the implementation of software prototypes 
Servizi esterni        
Missioni 66  34.086  Missioni del personale impegnato nel progetto in Italia e all'estero  Travelling and living expenses of personnel involver in the project 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 120  61.975 
 
Costo minimo per garantire la possibilità di verifica dei risultati 96  49.580 
 
Fondi disponibili (RD) 24  12.395 
 
Fondi acquisibili (RA) 12  6.197 
 
Cofinanziamento richiesto al MURST 84  43.382 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università 1998   13  6.714     
Dipartimento          
MURST (ex 40%)          
CNR          
Unione Europea 1998   11  5.681    progetto Contact, programma Adapt-bis, resp. S. Greco 
Altro          
TOTAL   24  12.395     

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro 1999   accettato  12  6.197  contratto con consorzio TELCAL 
TOTAL     12  6.197   

4.2.1 Altro

Contratto con il consorzio TELCAL.

4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 01/04/1999 09:49:11