Testo italiano
Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente WebTesto inglese
Data-X: Management, Transformation and Exchange of Data in a Web Environment
ATZENI | PAOLO | |
---|---|---|
(cognome) | (nome) | |
Università degli Studi ROMA TRE | Facoltà di INGEGNERIA | |
(università) | (facoltà) | |
K05A | Dipartimento di INFORMATICA E AUTOMAZIONE | |
(settore scient.discipl.) | (Dipartimento/Istituto) |
atzeni@dia.uniroma3.it |
---|
(E-mail) |
GRECO | SERGIO | |
---|---|---|
(cognome) | (nome) |
Professore associato | 25/11/1955 | GRCSRG55S25B790M |
---|---|---|
(qualifica) | (data di nascita) | (codice di identificazione personale) |
Università degli Studi della CALABRIA | Facoltà di INGEGNERIA |
---|---|
(università) | (facoltà) |
K05A | Dipartimento di ELETTRONICA, INFORMATICA E SISTEMISTICA |
(settore scient.discipl.) | (Dipartimento/Istituto) |
0984/494751 | 0984/494713 | greco@deis.unical.it |
---|---|---|
(prefisso e telefono) | (numero fax) | (E-mail) |
K05A | K05B |
Testo italiano
BASI DI DATI ; WORLD WIDE WEB ; XML ; MODELLI DI DATI ; LINGUAGGI
Testo inglese
DATABASES ; WORLD WIDE WEB ; XML ; DATA MODELS ; LANGUAGES
Testo italiano
Sergio Greco si e' laureato in Ingegneria presso l'Universita' della Calabria. Dopo aver conseguito la laurea e' stato prima borsista e successivamente
ricercatore presso il centro di ricerca del Crai (Rende).
In seguito e' stato ricercatore presso l'Universita' della Calabria.
Durante tale periodo e' stato visiting researcher presso il centro di ricerca dell'MCC di Austin (Texas) e presso il dipartimento di Computer Science dell'Universita' della California di Los Angeles.
Attualmente e' professore associato presso la Facolta' di Ingegneria dell'Universita' della Calabria.
E' responsabile del progetto europeo "Contact" nell'ambito del programma Adapt-bis.
La sua attivita' di ricerca ha riguardato principalmente le basi di dati, la programmazione logica e la complessita' computazionale.
Su tali temi ha pubblicato piu' di 60 articoli su riviste e conferenze internazionali.Testo inglese
Sergio Greco received its laurea degree from University of Calabria.
Next he was researcher at CRAI, a computer science research consortium.
Next he was assistant professor at the University of Calabria.
During this time he was visiting researcher at the research center of Microelectronics and Computer Center (MCC) of Austin (Texas) and at the Computer Science Department of University of California at Los Angeles.
Currently, he is an associate professor at the faculty of Engineering at the University of Calabria.
He is project manager of the Adapt-bis project "Contact" financed by the European community.
His research interests include databases, logic programming and computer science theory.
He is coauthor of more than 60 papers appeared on international journals and
proceedings of international conferences.
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|
1999 | 2000 | ||||||
1 | GRECO | SERGIO | ELETTRONICA, INFORMATICA E SISTEMISTICA | Prof. associato | K05A | 4 | 4 |
2 | SACCA' | DOMENICO | ECOLOGIA | Prof. ordinario | K05A | 4 | 4 |
1.10.2 Personale universitario di altre Università
Nº | Cognome | Nome | Università | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|---|
1999 | 2000 | |||||||
1 | BUCCAFURRI | FRANCESCO | REGGIO CALABRIA | INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI | Ricercatore | K05A | 4 | 8 |
1.10.3 Titolari di assegni di ricerca
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|---|---|---|---|---|
1. | X | X | ELETTRONICA, INFORMATICA E SISTEMISTICA | 1999 | 8 |
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|---|---|---|---|---|
1. | BASTA | STEFANO | ELETTRONICA, INFORMATICA E SISTEMISTICA | 1997 | 8 |
2. | FLESCA | SERGIO | ELETTRONICA, INFORMATICA E SISTEMISTICA | 1996 | 8 |
Nº | Qualifica | Costo previsto | Mesi uomo |
---|---|---|---|
1. | laurea in ingegneria | 24 | 12 |
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Mesi uomo |
---|
Testo italiano
Linguaggi e tecniche per l'interrogazione e la trasmissione di dati semistrutturatiTesto inglese
Languages and techniques for querying and transmitting semistructured data
Testo italiano
L'unita' e' coinvolta nei temi 2 ( Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web) e 3 (Produzione e Scambio di Sorgenti di Dati in Ambiente Web) del progetto.
L'attività di ricerca sarà quindi concentrata su due linee principali, identificate nel seguito come linea A e linea B, aventi come scopo, rispettivamente, la definizione di un linguaggio per l'interrogazione e la ristrutturazione di dati semistrutturati e la definizione di protocolli efficienti per la trasmissione di grosse moli di dati.
Per quanto riguarda la linea A, recentemente sono stati definiti diversi linguaggi e sistemi per l'interrogazione e la manipolazione di dati semistrutturati, cioè di collezioni di dati che non hanno una struttura rigidamente fissata come, ad esempio, quelli disponibili sul Web (Abiteboul, 1997). Tali linguaggi sono, nella maggior parte dei casi, estensioni di SQL (Abiteboul et al., 1997). Alcuni di questi, detti linguaggi di prima generazione, quali W3QL (Konopnicki, Shmueli, 1995) e WebSQL (Mendelzon et al., 1996) assumono che il Web sia un insieme di documenti connessi tra di loro e ciascun documento contenga un numero fissato di informazioni (URL, Titolo, Testo, ecc.), mentre altri, detti linguaggi di seconda generazione, come ad esempio i linguaggi Lorel (Abiteboul et al., 1997), UnQL (Buneman et al., 1996), Strudel (Fernandez et al., 1998) tentano di rappresentare la struttura interna dei documenti, di solito in formato HTML. Tuttavia, entrambe le classi di linguaggi non sono soddisfacenti a causa della quasi totale mancanza di struttura all'interno dei documenti HTML. Per superare i limiti derivanti dall'uso del linguaggio HTML per la creazione di documenti, recentemente e' stato proposto come nuovo standard XML.
XML e' particolarmente adatto per rappresentare dati semistrutturati in quanto i documenti sono costituiti da aggregazioni di unità indipendenti, chiamate entità, che contengono l'informazione. Inoltre, XML supporta la possibilità di definire tipi di documento (DTD) che specificano la struttura. L'introduzione di XML ha portato alla definizione di nuovi linguaggi basati sull'utilizzo di modelli più fortemente tipati che hanno permesso di applicare risultati e tecniche precedentemente definite per le basi di dati orientate agli oggetti. Molti dei modelli proposti sono basati sull'utilizzo di diversi tipi unione per il trattamento delle irregolarità all'interno dei dati semistrutturati. Alcuni dei linguaggi e sistemi implementati per la gestione di dati semistrutturati sono stati, recentemente, estesi per la gestione di documenti XML.
Una seconda limitazione e' costituita dal fatto che tali linguaggi non permettono il controllo della ricerca in un fissato spazio. Infatti, la maggior parte dei linguaggi proposti fa uso di espressioni regolari per specificare lo spazio di ricerca ma non permette di specificare come esplorare tale spazio per cercare un numero limitato di soluzioni. Per superare tali limitazioni e' stato proposto un linguaggio basato sull'uso di espressioni regolari estese che permettono di definire dinamicamente priorità tra i diversi cammini utilizzati nell'esplorazione di documenti presenti nel Web. Tale linguaggio appartiene alla classe dei linguaggi della prima generazione in quanto assume che i documenti abbiano una struttura 'piatta' (Flesca, Greco, 1999).
Un ulteriore limite di tali linguaggi è dato dall'impossibilità di esprimere interrogazioni di documenti sulla base di una 'distanza' da documenti dati, espressa dinamicamente all'interno delle interrogazioni. Infatti, sebbene alcuni sistemi come, ad esempio, Lore, permettono di esprimere interrogazioni sulla base della distanza tra documenti, la metrica usata per calcolare tale distanza è fissata, non permette di poter definire tali criteri dinamicamente all'interno delle interrogazioni. Ad esempio, si consideri un insieme di documenti contenenti informazioni su città aventi al loro interno collegamenti a documenti di regioni e nazioni. Una interrogazione del tipo "trova le città capoluogo di provincia 'più vicine' alle città Assisi e Orvieto" restituirebbe l'insieme delle città italiane con la stessa distanza dall'insieme di partenza.
Per quanto riguarda la trasmissione di grosse moli di dati semistrutturati(linea B), non sono state fin qui studiate tecniche specializzate particolarmente efficienti per il trattamento di gerarchie di priorità. I protocolli attuali riguardano essenzialmente la trasmissione di immagini video in forma digitale. MPEG (Le Gall, 1991) è uno standard diffusissimo che permette una elevata compressione attraverso l'invio dei dati completi solo per alcune immagini (quadri di tipo I) mentre per le altre vengono inviati solo quei dati che permettono la loro ricostruzione (quadri P) o interpolazione (quadri B). Dato che i quadri I sono necessari per determinare gli altri tipi di quadri, essi hanno la priorità massima; una priorità più bassa è mantenuta dai quadri P e quelli B hanno una priorità ancora più bassa. Lo standard MPEG tuttavia non indica come trasmettere un messaggio in modo che le porzioni a più elevata priorità siano recuperate per prima. Una soluzione interessante è stata fornita in (Shacham, 1992) che partiziona il messaggio in vari livelli secondo le priorità e invia solo quei livelli che il destinatario è in grado di ricevere sulla base della banda trasmissiva disponibile. Recentemente è stato proposto un protocollo per la gestione delle priorità , il PET (Albanese e Luby, 1996), che invia sempre tutti i livelli ma l'eventuale perdita di pacchetti a causa dell'insufficienza della banda comporterà la perdita dei soli dati a priorità più bassa. L'idea centrale del PET è che ogni pacchetto debba contenere dati per tutta una sequenza di quadri con un peso diverso a secondo della priorità dei quadri. Supponiamo che si vogliano trasmettere i dati a1, b1, a2, b2, a3, b3 tali che a1 e b1 abbiano priorità maggiore di a2 e b2 e questi a loro volta abbiano priorità maggiore degli ultimi due. Il codice PET costruisce i seguenti tre polinomi:
P1(X)= a1 + b1 X
P2(X)= a21 + a22 X + b21 X2 + b22 X3
P3(X)= a31 + a32 X + a33 X2 + b31 X3 + b32 X4 + b33 X5
dove a2= a21*a22, b2= b21*b22, a3= a31*a32*a33, b3= b31*b32*b33, '*' è l'operatore di concatenazione per cui i valori di P2 e P3 richiedono la metà e un terzo rispettivamente dello spazio di memorizzazione dei valori di P1. Il PET invia i seguenti pacchetti:
0, P1(0), P2(0), P3(0)
1, P1(1), P2(1), P3(1)
2, P1(2), P2(2), P3(2)
3, P1(3), P2(3), P3(3)
4, P1(4), P2(4), P3(4)
5, P1(5), P2(5), P3(5)
cosicché i valori a1 e b1 sono calcolati non appena siano stati ricevuti due qualsiasi pacchetti, a2 e b2 non appena siano stati ricevuti quattro qualsiasi pacchetti e a3 e b3 non appena siano stati ricevuti tutti e sei i pacchetti.
Nell'ultimo anno è stata avviata dall'unità in collaborazione con l'istituto di ricerca ICSI dell'Università di Berkeley una linea di ricerca per estendere il codice MPEG e quello PET al trasferimento di dati semistrutturati in modo che l'interruzione del trasferimento di pacchetti non comporta perdere tutte le informazioni ma soltanto quelle a priorità più bassa che saranno eventualmente recuperate con la trasmissione successiva dei pacchetti mancanti.Testo inglese
The team of the University of Calabria is involved in the Themes 2 (Modeling and querying data sources in a WEB environment) and 3 (Production and exchange of data sources in a WEB environment).
Thus, the research will be carried out along two main lines identified in the following as line A and line B. The aim of the two lines are respectively, the definition of a language for querying and restructuring semistructured data and the definition of new protocols for the efficient transmission of very large pieces of semistructured data.
Concerning line A, recently, several languages and systems for querying and restructuring semistructured data, such as those available on the Web, have been proposed (Abiteboul, 1997). Most of these languages are extensions of SQL (Abiteboul et al., 1997). Some of these languages, such as W3QL (Konopnicki, Shmueli, 1995) ) and WebSQL (Mendelzon et al., 1996), assume that each document contains a fixed number of information (fields), whereas others, try to represent the internal structure of HTML documents (Abiteboul et al., 1997), (Fernandez at al., 1997). These classes of languages are usually identified as first and second generation languages. However, both classes of languages are not satisfactory since HTML documents lacks of structured information.
To overcome this limitation, a new standard for Web documents has been recently proposed, called XML. XML is particularly suited to represent semistructured data since XML documents are aggregations of independent information units, called entities. The introduction of XML has influenced the definition of new languages based on the use of strongly typed data models which have permitted to apply results and techniques previously defined for object oriented databases. Most of the proposed data models are based of different union types to manage irregularities contained into semistructured data. Some of the languages and systems for semistructured data have been, recently, extended to manage also XML documents.
However, these languages are still limited mainly for the aspects concerning the exploration of collection of documents (Flesca e Greco, 1999). In particular, the main limitation is the impossibility to control the search of documents in a given space. Indeed, most of the languages proposed uses regular expressions to specify the search space but they do not permit to specify how to explore such a space to search a fixed number of solutions (documents). To overcome these limitations a languages based on extended regular expressions was proposed. This language permit to express dynamically priorities among paths used to explore documents in the Web. The language can be characterized as a first generation language since it is based on the assumption that documents have a flat structure. A further limitation of these languages is the impossibility to express queries ranking documents based on their proximity and to express proximity criteria dynamically (Goldman et al., 1998). Indeed, such systems such as Lore, allow the possibility to express queries based on distances among documents, but the criteria used to measure the distance between two documents is fixed.
Concerning the transmission of large semistructured data sets (line B), so far there are no specialized, efficient techniques to handle priority hierarchies. Present protocols mainly deal with the transmission of images in a digital format. In particular, MPEG (Le Gall, 1991) is a widely used technique for encoding digital video which transmits the whole data only for selected frames (frames of type I) while, for the other frames, it only sends those data which are necessary for their reconstruction (frames P) or their interpolations (frames B). Since the frames I are crucial to construct all other frames, they have the highest priority; a lower priority is hold by the frames P and a even lower priority is retained by the frames B. MPEG does not specify how to transmit a message over a network so that the higher priority parts of the message are recovered first. An interesting solution has been given in (Shacham, 1992) which partitions the message into different layers according to the priorities and only sends those layers that the recipient can receive on the basis of the available bandwidth. Recently, a new protocol for handling priorities, PET, has been proposed in (Albanese e Luby, 1996); PET always sends all layers but in such a way that the ones with higher priorities are guarantied to arrive while the others require more time or may be even lost if there is not enough bandwidth. The central idea of PET is that each packet must contain data for an entire sequence of frames but with a different weight in the representation: the higher is the priority of a frame, the larger is the size of memory used to store the frame. Suppose we want to transmit the data a1, b1, a2, b2, a3, b3 such that a1 e b1 have higher priority than a2 and b2; a2 and b2, in turn, have higher priority than a3 and b3. PET constructs the following three polynomials:
P1(X)= a1 + b1 X
P2(X)= a21 + a22 X + b21 X2 + b22 X3
P3(X)= a31 + a32 X + a33 X2 + b31 X3 + b32 X4 + b33 X5
where a2= a21*a22, b2= b21*b22, a3= a31*a32*a33, b3= b31*b32*b33, '*' is the concatenation operator so that the coefficients of P2 and P3 need one half and one third, respectively, of the size necessary to store the values of P1. PET sends the following packets:
0, P1(0), P2(0), P3(0)
1, P1(1), P2(1), P3(1)
2, P1(2), P2(2), P3(2)
3, P1(3), P2(3), P3(3)
4, P1(4), P2(4), P3(4)
5, P1(5), P2(5), P3(5)
so that a1 e b1 can be computed upon the receival of any two packets whereas four packets are needed for computing a2 and b2 and all six packets for a3 and b3.
In the last year University of Calabria's team and researchers of the institute ICSI of the University of Berkeley have started some research activities on extending MPEG and PET for transferring semistructured data in such a way that interrupting the transmission does not imply to loose all information but only those pieces with lower priorities; moreover the lost information can be later recovered by sending the missing packets.
- (Abiteboul, 1997) S. Abiteboul "Querying Semistructured Data" Proceedings of the 6th International Conference on Database Theory (ICDT'97), 1997.
- (Abiteboul e Vianu, 1997) S. Abiteboul, V. Vianu "Queries and Computation on the Web", Proceedings of the 6th International Conference on Database Theory (ICDT'97), 1997.
- (Abiteboul et al., 1997) S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. L. Weiner: The lorel query language for semistructured data, Journal of Digital Library, 1, 1997.
- (Fernandez at al., 1997) M. Fernandez, D. Florescu, A. Levy, D. Suciu "A query language for a web-site management system", In SIGMOD Record, 26(3):4-11, 1997.
- (Flesca e Greco, 1999) S. Flesca, S. Greco "Partially Ordered Regular Languages for Graph Queries", In Proceedings of the 26-th International Colloquium on Automata Languages and Programming (ICALP'99), 1999.
- (Goldman et al., 1998) R. Goldman, N. Shivakumar, S. Venkatasubramanian, H. Garcia-Molina "Proximity Search in Databases", In Proceedings of the 24th International Conference on Very Large Data Bases (VLDB'98), 1998.
- (Mendelzon et al, 1996) A.Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", In Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.
- (Mendelzon e Milo, 1997) O. Mendelson, T. Milo "Formal Methods of Web Queries", Proc. PODS, 1997.
- (Konopnicki e Shmueli, 1995) D. Konopnicki, O. Shmueli "W3QS: A query system for the World Wide Web", Proc. VLDB, 1995.
- (Le Gall, 1991) D. Le Gall, "MPEG: A video compression standard for Multimedia applications", CACM, Vol 34, No 4, April 1991, 47-58
- (Albanese e Luby, 1996) A. Albanese and M. Luby, ``PET - Priority Encoding Transmission", in High Speed Networking for Multimedia Applications , Kluwer Academic Publishers, Boston, March 1996.
- ( Shacham, 1992) N. Shacham, "Multicast Routing of Hierircal Data, Proc. of ICC'92, Chicago 1992.
Testo italiano
L'unita' e' coinvolta nei temi 2 ( Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web) e 3 (Produzione e Scambio di Sorgenti di Dati in Ambiente Web) del progetto.
La ricerca sarà quindi sviluppata secondo due linee fondamentali:
A. La definizione di un linguaggio per l'interrogazione e la ristrutturazione di dati semistrutturati basato sull'uso di espressioni regolari estese per esplorare efficientemente collezioni di documenti distribuiti su vari siti WEB - tale linea ricade all'interno del Tema 2 "Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente WEB";
B. La estensione di recenti protocolli efficienti per la trasmissione di immagini con priorità al caso di grosse moli di dati semistrutturati definiti in XML che debbono essere ricevuti in tempi stretti anche a costo di eventualmente trascurare alcune porzioni di dati di minor rilievo; il protocollo deve permettere di inviare i dati in base alla loro priorità e di poter riprendere la trasmissione in sessioni successive senza dover rispedire tutti i dati già trasmessi - tale linea ricade all'interno del Tema 3 "Produzione e Scambio di Sorgenti di Dati in Ambiente WEB".
Il programma di ricerca della linea A prevede la definizione e la sperimentazione di un linguaggio per l'interrogazione di documenti semistrutturati (ad esempio documenti XML) e la creazione automatica di nuovi documenti a partire da documenti esistenti (ristrutturazione di documenti). Per tale scopo e' necessario definire un modello di dati che permetta di descrivere dati semistrutturati di diversa natura quali, ad esempio, i documenti XML. In particolare, il modello di riferimento e' un modello orientato agli oggetti complessi in cui ciascuna risorsa di dati e' vista come un oggetto, opportunamente identificato (dal suo URL o URI), e con una serie di attributi. Per la costruzione dei tipi, il modello prevede, tra l'altro, primitive per rappresentare insiemi di tipi di base, link di diverso tipo, tuple, collezioni e tipi unione.
Un insieme di dati descritti attraverso il modello introdotto, può essere rappresentato mediante un grafo (database graph) che potrà essere interrogato attraverso un linguaggio appositamente progettato. Il linguaggio sarà basato sull'uso di espressioni regolari estese, per esprimere un ordinamento parziale sulle stringhe che definiscono cammini nel grafo, mentre la semantica formale potrà essere definita in termini di graph grammars. Un secondo aspetto del linguaggio sarà costituito dalla possibilità di esprimere relazioni di "vicinanza" tra documenti. In particolare, il linguaggio dovrà permettere la ricerca di documenti rilevanti secondo una metrica stabilita dall'utente quale ad esempio la "distanza" (numero di link) da un insieme di documenti dati. Inoltre, il criterio di distanza dovrà essere definibile dinamicamente nella interrogazione. L'insieme dei documenti appartenenti al risultato di una interrogazione potrà essere (parzialmente) ordinato sulla base della loro rilevanza rispetto ai criteri introdotti nell'interrogazione.
Il programma della linea B di ricerca riguarda la trasmissione di grosse mole di dati semistrutturati, definiti in XML su siti WEB , a seguito di interrogazioni o apposite transazioni di scambio di dati. Molte applicazioni WEB gestiscono grandi moli di informazioni organizzate su vari livelli di aggregazione e/o di astrazione e memorizzate in basi di dati di notevoli dimensioni per cui il trasferimento di dati può diventare estremamente oneroso in termini di occupazione di banda oltre che dispersivo in quanto si costringe l'utente a ricevere dettagli che spesso non sono necessari e solo appesantiscono la lettura dell'informazione rilevante. La recente introduzione di XML e una adeguata combinazione della sua potenzialità di rappresentare dati semistrutturati con la tecnologia delle basi di dati costituisce una notevole opportunità per la realizzazione di applicazioni WEB in cui sia chiara e di facile e flessibile consultazione sia la struttura dell'informazione di interesse sia le varie istanze dei dati opportunamente organizzate a vari livelli di aggregazione e/o di astrazione. La possibilità di definire livelli di aggregazione e astrazione tramite XML è particolarmente efficace nel caso in cui i dati gestiti siano di tipo multi-dimensionale, cioè di relazioni in cui gli attributi sono di due tipi: (i) le dimensioni che descrivono le proprietà di un oggetto, e (ii) le misure che memorizzano valori. Ad esempio, nella relazione multi-dimensionale VENDITE (Prodotto, Cliente, DataVendita, QuantitàVenduta, Introito) i primi tre attributi sono le dimensioni mentre gli ultimi due sono misure. Le vendite possono essere aggregate attraverso il calcolo delle somme delle quantità vendute e degli introiti per opportuni gruppi di vendite (ad esempio per prefissate classi di prodotti, categorie di clienti e intervalli di tempo) ottenendo così varie modalità possibili di presentazione dei dati. Evidentemente i dati a livelli di aggregazione maggiore saranno quelli con più alta priorità in modo che possano essere scambiati velocemente e comunque prima del trasferimento dei dati di dettaglio che può addirittura essere annullata se l'informazione aggregata è sufficiente o rinviata a sessioni successive.
Come risultato finale della linea B di ricerca verrà realizzato un prototipo di un sistema per l'assegnazione delle priorità alle varie possibili aggregazioni dei dati in una applicazione WEB e per la trasmissione dei dati tramite un protocollo che estenda il PET e lo specializzi al caso di dati semistrutturati in modo da gestire le priorità. Una proprietà importante del protocollo sarà che l'interruzione del trasferimento di pacchetti (operazione drastica spesso frequente in presenza di congestioni della rete) non comporterà perdere tutte le informazioni ma soltanto quelle a priorità più bassa che potranno essere eventualmente completate con la trasmissione successiva dei pacchetti mancanti.
Le attività del progetto saranno articolate in 4 fasi, ciascuna della durata di 6 mesi. Ciascuna fase consiste di 2 attività distinte che fanno riferimento alle due linee del progetto.
FASE 1-A:
Verranno analizzati i linguaggi per l'interrogazione di dati semistrutturati quali, ad esempio, Lorel (università di Stanford), ed StruQL (AT&T labs). In questa fase verranno altresì analizzati i linguaggi per l'interrogazione di Basi di dati rappresentabili mediante grafi ("Graph Databases") e verrà definito, insieme alle altre unità, il modello dei dati di riferimento.
PRODOTTI:
T2.1-R1 (in collaborazione con le altre unità): rapporto con la definizione del modello dei dati di riferimento;
T2.1-R4 : rapporto contenente l'analisi dei linguaggi attuali e la definizione dei requisiti dei linguaggi di interrogazione;
FASE 1-B:
Verranno adattate e estese le tecniche di trasmissione di dati con priorità in modo da specializzarli per il caso di dati semistrutturati definiti in XML e in cui siano stati introdotti vari livelli di astrazione e aggregazione a cui corrispondono priorità differenti.
PRODOTTO:
T3.1-R5: Rapporto sull'utilizzo di tecniche basate su priorità per la trasmissione di dati definiti in XML.
FASE 2-A:
Verrà definito un nuovo linguaggio per l'interrogazione di dati descritti mediante il modello dei dati definito nella Fase 1.
PRODOTTI:
T2.2-R1 (in collaborazione con le altre unità): rapporto con la definizione della sintassi e della semantica di una prima versione del linguaggio di interrogazione per sorgenti XML descritte secondo il modello di riferimento;
T2.2-R4 (in collaborazione con le altre unità): rapporto contenente la definizione dell'architettura del prototipo del linguaggio;
FASE 2-B:
Le tecniche di trasmissione di dati con priorità verranno implementate e incluse come strumenti in una coppia servente-cliente WEB connessi attraverso una rete la cui banda è opportunamente controllabile in modo da valutare il comportamento in varie situazioni di congestione.
PRODOTTO:
T3.2-S7: Primo prototipo del sistema per la trasmissione di dati XML con priorità.
FASE 3-A:
Verrà implementato un prototipo del linguaggio definito nella fase precedente e verrà definita una estensione del linguaggio per la ristrutturazione dei dati.
PRODOTTI:
T2.3-S1 (in collaborazione con le altre unità): prototipo del linguaggio di interrogazione per siti Web
FASE 3-B:
Il prototipo verrà sperimentato in varie situazioni, con varie tipologie di reti e di clienti in modo da avere una validazione approfondita dei limiti e vantaggi delle tecniche proposte in modo da individuare possibili miglioramenti e definire gli scenari di utilizzo ottimale.
PRODOTTO:
T3.3-R5: Rapporto sulla sperimentazione delle tecniche di trasmissione di dati XML con priorita'.
FASE 4-A:
Verrà implementato un prototipo del linguaggio esteso per sperimentare la sua utilità nella soluzione di problemi di interesse pratico.
PRODOTTI:
T2.4-S1 (in collaborazione con le altre unità): secondo prototipo del linguaggio di interrogazione;
T2.4-R2 (in collaborazione con le altre unità): rapporto sulla sperimentazione del prototipo;
T2.4-R4 (in collaborazione con le altre unità): rapporto conclusivo: sviluppi futuri della ricerca e applicabilità dei risultati.
FASE 4-B:
Sulla base delle sperimentazioni della Fase 3, il prototipo sarà revisionato e risottoposto a ulteriori sperimentazioni e valutazioni; saranno anche valutati i possibili sviluppi futuri della ricerca, in particolare la possibilità di applicazioni industriali delle tecniche di trasmissione proposte.
PRODOTTI:
T3.4-S5: Revisione del prototipo del sistema per la trasmissione di dati XML con priorità
T3.4-R5 (in collaborazione con le altre unità): Rapporto conclusivo sul Tema 3: sviluppi futuri della ricerca e applicabilita' dei risultati.Testo inglese
The team of the University of Calabria is involved in the Themes 2 (Modeling and querying data sources in a WEB environment) and 3 (Production and exchange of data sources in a WEB environment).
Thus, the research will be carried out along two main lines:
(1) The definition of a language for querying and restructuring semistructured data, based on regular expressions suitably extended to enable efficient navigations through documents distributed on various WEB sites - this line is part of the Topic 2 "Modeling and querying data sources in a WEB environment";
(2) The extension of recent efficient protocols for image transmission based on priorities to the case of very large pieces of semistructured XML data which must be received within very restricted time limits, possibly by discarding less relevant data; the protocol therefore transmits data according to their priorities and is able to recovery loss data in subsequent sessions without having to retransmit all data - this line is part of the Topic 3 "Production and exchange of data sources in a WEB environment".
The research of line A is based on the definition and the experimentation of a language for querying and restructuring semistructured data such as XML documents. A data model to describe different types of semistructured data will be first defined. In particular, the new data model is an object-oriented data model where each data source is an object having an identifier (URL or URI) and a set of attributes. In order to define new data types, the data model provides, among others, primitives to represent sets of base types, links of different types, collections and union types.
A set of data described by means of the new data model, can be also represented by means of a (database) graph which could be queried by means of a language designed for graph databases. The language will be based on the use regular expressions extended to express a partial order among the strings corresponding to paths in the graph; the formal semantics could be defined in terms of graph grammars.
A further characteristic of the language will be the possibility to express proximity relations among documents. In particular, the language should permit to search documents on the base of criteria defined by the user, such as the minimal distance (number of links) from a given set of nodes.
Further, the criteria should be definable dynamically in the query. The set of documents computed by a query should be partially ordered on the base of their relevance with respect to the criteria introduced in the query.
The program of the research line B concerns the transmission of large semistructured data sets, defined in XML on WEB sites, which are the results of queries or ad-hoc transactions for data exchange. Many WEB applications manage large pieces of information, organized on various layers of aggregations and/or abstractions and stored in large databases so that data transmission may result very costly in terms of band consumption as well as quite dispersive for it may oblige the user to collect details which are not necessary and, besides, hide the relevant information. The recent introduction of XML and the combinition of it expressive power for semistructured data definition with the database technology represents a remarkable opportunity for the implementation of WEB applications with clear and flexible data structures and suitable organizations of data at various levels of aggregations and/or abbstractions. The possibility of using XML to define such levels is particularly effective when the data are multi-dimensional, thus they are stored in relations with two types of attributes: (i) the dimensions describing the properties of an object, and (ii) the measures for storing values. For instance, given the multi-dimensional relation SALES (Product, Customer, DateOfSale, Quantity, Takings), the first three attributes are the dimensions and the last two are the measures. The sales can be aggregated by summing the quantities or the takings for suitable groups of sales (e.g., for given product classes, customer categories, and time periods) thus obtaining several possible data presentation layouts . Obviously, the data at the higher layers of aggregations will have higher priorities so that they can be exchanged very quickly and definitely before transmitting detail data. The latter transmission can be posponed to next sessions or even cancelled if aggregata data turn out to carry the wanted information.
The final result of the research line B will be a prototype of a system for assigning priorities to data of a WEB application according to their level of aggregation/abstraction and for transmitting such data by means of a protocol extending PET to wotk with semistructured data with priorities. An important property of the protocol will be that a possible interruption in the transmission (a situation which often arises in congested networks) will not cause to loose all data but only with lower priorities. Lost data can be eventually recovered with a later transmissions of the missing packets.
The activities of the research will be organized into 4 phases, each one of 6-month duration:
PHASE 1-A
Query languages for semistructured data, such as , Lorel (università di Stanford), ed StruQL (AT&T labs) and for graph databases will be analyzed. In this phase will be also defined the new data model to describe semistructured data.
PRODUCT:
T2.1-R1 (in cooperation with the other project teams): report containing the definition of data model used to represent semistructured data;
T2.1-R4 : report analyzing languages actually available and defining the requirements for the new query language;
PHASE 1-B
Techniques for the transmission of data with priorities will be extended in order to handle semistructured data defined in XML, organized in various layers of aggregations/abstractions: such layers will correspond to various levels of priorities.
PRODUCT:
T3.1-R5: Report on the usage of techniques for the transmission of XML data with priorities.
PHASE 2-A
A new language for querying semistructured data described by means of the model introduced in the previous phase will be defined.
PRODUCT:
T2.2-R1 (in cooperation with the other project teams): report on the definition of the syntax and semantics of a first version of the language for XML data described using the reference model;
T2.2-R4 (in cooperation with the other project teams): report on the architecture of a prototype of the language.
PHASE 2-B:
Techniques for the transmission of data with priorities will be implemented and added as tools in a pair WEB server-client, connected through a network whose band can be suitably tuned so that performances can be evaluated under varios scenarios of congestion.
PRODUCT:
T3.2-S7: First prototype of the system for the transmission of XML data with priorities.
PHASE 3-A
A prototype of the language defined in the previous phase will be implemented. Furthermore, in this phase will be defined an extension of the language for data restructuring.
PRODUCT:
T2.3-S1 (in cooperation with the other project teams): prototype of the language for querying semistructured data on the Web;
PHASE 3-B:
The prototype will be experimented in various situations, with different schemes of networks e classes of users in order to obtain a thorough validation of the ins and outs of the proposed techniques; as a results, possible improvements of the techniques as well as scenarios of optimal utilizations will be singled out.
PRODUCT:
T3.3-R5: Report on the experimentation of the techniques of the transmission of XML data with priorities.
PHASE 4-A
A prototype of the extended language will be implemented and experimented in the solution of practical problems.
PRODUCT:
T2.4-S1 (in cooperation with the other project teams): second prototype of the query language;
T2.4-R2 (in cooperation with the other project teams): report on the experimentation on the use of the query language;
T2.4-R4 (in cooperation with the other project teams): Final report on Theme 2: further research and result exploitation..
PHASE 4-B:
Following the sperimentations of Phase 3, the prototype will be revisioned and further evaluated; moreover, future possible evolutions of the research will be analyzed and the exploitation of the results towards industrial application will be investigated.
PRODUCTS:
T3.4-S5: Revision of the prototype for the transmission of XML data with priorities.
T3.4-R5 (in cooperations with the other project teams): Final report on the Theme 3: further research and result exploitation.
Nº | Anno di acquisizione | Descrizione | |
---|---|---|---|
Testo italiano | Testo inglese | ||
1. | 1998 | PC-Server CPU Intel Pentium II, SO Windows NT | PC-Server, CPU Intel Pentium II, Windows NT OS |
2. | 1998 | PC con CPU Intel Pentium 200, SO Windows 95 | PC, CPU Intel Pentium 200, Windows 95 OS |
3. | 1998 | PC con CPU Intel Pentium 200, SO Windows 95 | PC, CPU Intel Pentium 200, Windows 95 OS |
4. | 1998 | PC con CPU Intel Pentium 200, SO Windows 95 | PC, CPU Intel Pentium 200, Windows 95 OS |
5. | 1992 | WS Sun Sparc 10, SO Solaris 2.5 | Sun Sparc 10, Solaris 2.5 OS |
Attrezzatura I
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Attrezzatura II
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Voce di spesa | Spesa | Descrizione | ||
---|---|---|---|---|
M£ | Euro | Testo italiano | Testo inglese | |
Materiale inventariabile | 25 | 12.911 | Personal computers, stampanti | Workstations, printers |
Grandi Attrezzature | ||||
Materiale di consumo e funzionamento | 5 | 2.582 | Materiale di cancelleria, carta per stampante, toner | Stationery, printer paper, toner |
Spese per calcolo ed elaborazione dati | ||||
Personale a contratto | 24 | 12.395 | Collaboratore per lo sviluppo dei prototipi previsti dal progetto | Specialist to be involved in the implementation of software prototypes |
Servizi esterni | ||||
Missioni | 66 | 34.086 | Missioni del personale impegnato nel progetto in Italia e all'estero | Travelling and living expenses of personnel involver in the project |
Altro |
M£ | Euro | |
---|---|---|
Costo complessivo del Programma dell'Unità di Ricerca | 120 | 61.975 |
Costo minimo per garantire la possibilità di verifica dei risultati | 96 | 49.580 |
Fondi disponibili (RD) | 24 | 12.395 |
Fondi acquisibili (RA) | 12 | 6.197 |
Cofinanziamento richiesto al MURST | 84 | 43.382 |
QUADRO RD
Provenienza | Anno | Importo disponibile | nome Resp. Naz. | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | 1998 | 13 | 6.714 | ||
Dipartimento | |||||
MURST (ex 40%) | |||||
CNR | |||||
Unione Europea | 1998 | 11 | 5.681 | progetto Contact, programma Adapt-bis, resp. S. Greco | |
Altro | |||||
TOTAL | 24 | 12.395 |
4.1.1 Altro
QUADRO RA
Provenienza | Anno della domanda o stipula del contratto | Stato di approvazione | Quota disponibile per il programma | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | |||||
Dipartimento | |||||
CNR | |||||
Unione Europea | |||||
Altro | 1999 | accettato | 12 | 6.197 | contratto con consorzio TELCAL |
TOTAL | 12 | 6.197 |
4.2.1 Altro
Contratto con il consorzio TELCAL.
Firma ____________________________________________ |
---|
Firma ____________________________________________ | 01/04/1999 09:49:11 |
---|