Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_007


1. Programma di Ricerca di tipo: interuniversitario


Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
Area: Scienze matematiche (35%)

2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)

3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Responsabile Scientifico dell'Unità di Ricerca
CIACCIA
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
Professore Associato
(Qualifica)
16/04/59
(Data di nascita)
CCCPLA59D16G489Q
(Codice di identificazione personale)
BOLOGNA
(Università)
SCIENZE MATEMATICHE FISICHE e NATURALI
(Facoltà)
Dip. Elettronica, Informatica e Sistemistica DEIS
(Dipartimento/Istituto)
171013
(Codice conto Tesoreria Unica del Dip/Ist.)
051/6443070
(Prefisso e telefono)
051/6443540
(Numero fax)
pciaccia@deis.unibo.it
(Indirizzo di posta elettronica)


5. Settori disciplinari interessati dal Programma di Ricerca
K05A K05B


6. Titolo specifico del programma svolto dall'Unità di Ricerca
Estensione delle modalita` e funzionalita` di interazione con il WWW


7. Descrizione del Programma dell'Unità di Ricerca
La ricerca si articola su quattro fasi di durata semestrale, descritte di seguito, e accompagnate dalla descrizione dei prodotti relativi.


Prima Fase
In questa fase verra' introdotto un modello dei dati di riferimento per lo sviluppo di un sistema (WaDer, nel seguito) che integri dati locali e informazione residente sul Web. Sara' poi definito un linguaggio di interrogazione non procedurale basato su tale modello. Si provvedera' anche allo studio dell'integrazione della dimensione del tempo di transazione nelle funzionalita' del WWW. Questo consentira' la gestione, in maniera automatica e trasparente all'utente, di versioni successive di risorse Web cosi' come prodotte da modifiche e ristrutturazioni. Verranno studiati gli aspetti teorici di tale integrazione, inclusa l'estensione temporale dei protocolli di negoziazione in uso (HTTP).
Si elaborera' infine un modello concettuale orientato al data warehousing. Verranno studiate le problematiche relative all'impiego del modello concettuale nella fase di progettazione. Pił in dettaglio si intende analizzare e selezionare le informazioni che devono essere rappresentate nel modello concettuale, ossia quelle che sono considerante rilevanti ai fini della progettazione di un DW. Si provvedera' quindi a specificare formalmente una sintassi in grado di rappresentare in modo chiaro e conciso le informazioni suddette.


Prodotti previsti:


  1. rapporto sulla prima versione del modello dei dati e del linguaggio di interrogazione di WaDer
  2. rapporto sullo studio teorico dell'integrazione del tempo di transazione e sull'estensione dei protocolli
  3. rapporto sullo studio del modello concettuale per DW

Seconda Fase
Si definira` l'architettura software di base per il sistema WaDer, in grado di supportare interrogazioni che correlino il contenuto dei documenti WWW con dati localmente residenti, e si realizzera` un primo prototipo del sistema.
Per cio` che concerne gli aspetti temporali, si procedera', applicando i risultati teorici ottenuti nella fase precedente, all'implementazione di un prototipo di server Web con supporto di versioni secondo il tempo di transazione. Saranno inoltre studiate le problematiche di compatibilita' delle soluzioni proposte con gli standard attuali e con i file system piu' in uso. Saranno anche studiate e realizzate le estensioni richieste ad un client Web per rendere disponibile una navigazione temporale lungo il tempo di transazione.
Per quanto riguarda l'aspetto data warehousing, in questa seconda fase della ricerca ci si cimentera' con l'identificazione delle possibili strategie di costruzione di uno schema concettuale, ossia di determinare le primitive che possano permettere di inserire progressivamente nel progetto tutte le informazioni necessarie.


Prodotti previsti:


  1. rapporto sull'architettura software di WaDer
  2. rapporto sulle estensioni temporali per client Web (tempo di transazione)
  3. rapporto sulla progettazione concettuale per DW
  4. primo prototipo del sistema WaDer
  5. prototipo di server WWW temporale

Terza Fase
Nella terza fase si studieranno, relativamente al sistema WaDer, aspetti legati all'esecuzione efficiente di interrogazioni. Verranno inoltre considerate estensioni del modello e del linguaggio di interrogazione al fine di poter fare anche uso, sotto il diretto controllo dell'utente, di copie 'cached' di documenti WWW. Sara' condotto uno studio dell'integrazione della dimensione del tempo di validita' nelle funzionalita' del WWW. Questo consentira' la definizione e codifica di documenti Web intrinsecamente temporali, contenenti informazione esplicitamente storicizzata dall'autore per consentire una navigazione all'utente temporalmente selettiva. Verranno studiati gli aspetti teorici di tale integrazione, inclusa l'estensione temporale dei linguaggi di "markup" in uso (HTML), in grado di consentire il "timestamping" di singoli oggetti all'interno di un documento.
Verranno infine determinate delle regole per la progettazione automatica orientata al data warehousing. Si tentera' cioe' di identificare regole e tecniche che permettano di automatizzare tutte le fasi di progettazione. Piu' in particolare si vogliono definire tecniche per costruire in modo automatico o semi-automatico lo schema concettuale a partire dalla struttura delle basi di dati o dei siti Web su cui operera` il DW.


Prodotti previsti:


  1. rapporto sulle tecniche di ottimizzazione nel sistema WaDer
  2. rapporto sullo studio dell'estensione di formati di documenti Web
  3. rapporto sulle regole per la progettazione automatica di DW
  4. prototipo di un tool per la progettazione automatica di DW

Quarta Fase
In questa fase finale si estendera` WaDer al fine di trattare aspetti legati alla rilevanza dei documenti WWW, integrando nel modello dei dati e nel linguaggio di interrogazione elementi in grado di permettere un ordinamento dei risultati e, in fase di esecuzione, il "pruning" di cammini ritenuti non significativi. Verra` inoltre realizzata un'interfaccia grafica per il sistema. Si procedera' anche all'implementazione della dimensione del tempo di validita' nelle funzionalita' del WWW. Saranno applicati i risultati teorici ottenuti nella fase precedente, realizzando un prototipo di client Web con supporto di versioni di risorse Web secondo il tempo di validita'. Saranno inoltre studiate e realizzate le estensioni richieste ad un client Web per rendere disponibile una navigazione temporale lungo il tempo di validita'. Anche qui saranno presi in considerazione problemi di compatibilita' con gli standard ed i prodotti commerciali in uso.
In ambito data warehousing si proseguira' con la definizione di regole che permettano di costruire a partire dallo schema concettuale il progetto logico corrispondente.


Prodotti previsti:


  1. rapporto finale sul sistema WaDer
  2. rapporto sulle estensioni temporali per client Web (tempo di validita`)
  3. rapporto finale sulla progettazione concettuale di DW
  4. prototipo finale di WaDer, completo di interfaccia grafica amichevole
  5. prototipo di client WWW temporale
  6. prototipo finale del tool di progettazione concettuale per DW


8. Obiettivo del programma dell'Unità di Ricerca
Il programma dell'unita' comprende l'estensione delle funzionalita' e potenzialita' di interazione con il WWW, andando a interessare piu` temi del progetto, come segue:
Ricerca non-procedurale su WWW
L'obiettivo e` definire e realizzare un ambiente integrato per la ricerca, in stile dichiarativo SQL-like, di informazioni sul WWW. Tale ambiente dovra` essere in grado di integrare informazione locale (residente su DB) con quella dispersa sul WWW, e permettere di definire e mantenere 'viste' di interesse sul WWW. Al fine di garantire efficacia e efficienza nella ricerca, si considereranno aspetti legati ai criteri di valutazione dei risultati, e aspetti prestazionali, mediante utilizzo di informazione 'cached' e tecniche di ottimizzazione delle interrogazioni.
Integrazione della dimensione temporale nel WWW
Il secondo obiettivo e' estendere al WWW concetti e tecniche delle basi di dati temporali, integrando le dimensioni temporali nel WWW: il tempo di transazione (per la gestione automatica e trasparente di versioni successive di risorse WWW) e il tempo di validita` (per la realizzazione di documenti WWW intrinsecamente temporali, ovvero contenenti informazione storicizzata). Cio` comportera` lo studio di un'estensione temporale dei formati di codifica dei documenti e dei protocolli di negoziazione dei dati, nonche' delle funzionalita` di sistemi server e client WWW.
Progettazione concettuale orientata al data warehousing (DW)
Terzo obiettivo e` la definizione di una metodologia di progettazione concettuale orientata al DW. Cio` comporta definire una rappresentazione del DW, indipendente dal modello logico utilizzato, che permetta di schematizzare e rappresentare le informazioni rilevanti ai fini delle successive fasi di progettazione. Poiche' il concetto di DW implica l'esistenza di una base di dati (sistema informativo dell'azienda, WWW), obiettivo primario e` anche quello di definire tecniche per la costruzione del suddetto modello concettuale a partire dallo schema di tale base di dati (schemi E/R del sistema informativo, schema dell'ipertesto nel caso WWW). Infine, si vogliono definire le tecniche per la traduzione automatica o semi-automatica del progetto concettuale nel modello logico corrispondente.


9. Base di partenza scientifica
L'accesso alle informazioni distribuite sul WWW si basa oggi su due tecniche fondamentali, la navigazione manuale (browsing) e l'uso di "index server" (keyword search).
Inoltre, la conoscenza specifica che un utente acquisisce e potrebbe proficuamente riutilizzare e' oggi supportata mediante strumenti primitivi, quali i "bookmarks". L'evidente inadeguatezza di tali soluzioni ha stimolato lavori miranti a permettere un'interazione a piu' alto livello, propria dei sistemi database, sia nei casi di riconoscimento di una 'struttura' comune ad un insieme di pagine (Atzeni 1997), sia nel caso piu' generale di assenza di tale struttura (Konopnicki 1995, Mendelzon 1996).
In quest'ultimo caso, tuttavia, i sistemi a tutt'oggi sviluppati non offrono alcun supporto di ambiente e risultano di scarsa utilita' nella definizione di ricerche complesse e nell'attivita' di strutturazione delle informazioni. Per ovviare a questi limiti, presso questa unita' e' stato avviato uno studio mirante allo sviluppo di un ambiente, denominato WaDer (Ciaccia 1997), che permetta, da un lato, di gestire localmente, mediante un approccio database, le informazioni di interesse per l'utente, dall'altro di permettere un efficace ed efficiente riutilizzo di tali informazioni in fase di ricerca. Alla base dell'approccio proposto e' il concetto di 'vista' definita sul WWW, e la possibilita' di definire relazioni di interesse tra tali viste e tra le viste e i dati locali.
E' stato inoltre avviato lo studio di un linguaggio di interrogazione SQL-like in grado di operare su tali viste.
Le basi di dati temporali (Tansel 1993) sono un campo di ricerca ormai consolidato e fecondo, nel cui ambito e' stata ad oggi sviluppata un'ampia infrastruttura per la gestione di informazione tempo-variante (modelli dei dati, linguaggi di interrogazione, indici, ecc.). In particolare, due dimensioni temporali (Jensen 1994) sono precipuamente di interesse in tale contesto: il tempo di transazione, che concerne l'evoluzione dei dati all'interno del sistema di gestione, ed il tempo di validita', associato all'evoluzione della realta' che i dati rappresentano. Incidentalmente, in questa cornice l'interesse e' stato finora focalizzato su dati ben strutturati (relazioni e oggetti), mentre sono stati scarsamente studiati dati testuali o documenti multimediali non strutturati. Componenti di questa unita` hanno maturato negli anni una forte competenza nel settore, collaborando anche ad importanti iniziative internazionali (Jensen 1993, Snodgrass 1995, Clifford 1995). D'altro canto, in ambito WWW, nonostante la notevole espansione e le continue funzionalita' acquisite alla tecnologia, non sono finora state seriamente prese in considerazione problematiche temporali vere e proprie. Esiste soltanto una riconosciuta esigenza di poter gestire versioni di documenti, in un contesto di "authoring" distribuito (Slein 1997), e la necessita' d'uso di un asse dei tempi in dati multimediali "animati" quali musica, video, ecc. (Newcombe 1991).
La comunita' scientifica attiva nel campo dei database sta infine dedicando una crescente attenzione alle ricerche relative ai "data warehouse" (DW), che saranno probabilmente uno degli argomenti principali dei prossimi anni. Da un punto di vista funzionale, il processo di DW consiste di 3 fasi: estrazione dei dati, organizzazione e integrazione dei dati nel DW, accesso ai dati in modo efficiente e flessibile. Nella prima fase le problematiche principali sono relative all'accesso a informazioni distribuite ed eterogenee (Zhuge 1996), la terza fase richiede invece di eseguire query complesse, e di utilizzare avanzate tecniche di indicizzazione (Lomet 1990). Per quanto riguarda invece la seconda fase le problematiche di progettazione di un DW richiedono tecniche completamente diverse da quelle adottate nei sistemi operazionali. La maggior parte della letteratura sulla progettazione di DW riguarda i modelli logici e fisici; l'apparente disinteresse verso la fase di progettazione concettuale e' da ricercarsi principalmente nel fatto che il concetto di DW e' nato in ambito industriale a fronte delle richieste degli utilizzatori che tipicamente riservano poca importanza alle problematiche concettuali, inoltre il progetto logico e fisico hanno un ruolo primario per quanto riguarda le
performance del sistema, obiettivo principale di un DW. Attualmente si sta assistendo ad una inversione di tendenza come dimostrano e sottolineano i recenti lavori sull'argomento (Gyssens 1997, McGuff 1996). All'aumentare della complessitą dei sistemi di DW che vengono sviluppati comincia a sentirsi l'esigenza di formalizzare anche questa fase progettuale.


Riferimenti
(Atzeni 1997) P. Atzeni, G. Mecca, P. Merialdo "To Weave the Web", In Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), 1997.
(Ciaccia 1997) P. Ciaccia "WaDer, an Integrated Environment for Managing Information on the Web", CSITE-CNR Technical Report, 1997.
(Clifford 1995) J. Clifford and A. Tuzhilin (eds.) "Recent Advances in Temporal Databases", Workshops in Computing, Springer-Verlag, Berlin, 1995.
(Gyssens 1997)M. Gyssens and L.V.S. Larkshmanan, "A Foundation for Multi-Dimensional Databases", Proc. of the 23rd VLDB Conference, Athens, Greece, 1997.
(Jensen 1994) C.S. Jensen, J. Clifford, R. Elmasri, S.K. Gadia, P. Hayes, S. Jajodia (eds.), C. Dyreson, F. Grandi, W. Kaefer, N. Kline, N. Lorentzos, Y. Mitsopoulos, A. Montanari, D. Nonen, E. Peressi, B. Pernici, J.F. Roddick, N.L. Sarda, M.R. Scalas, A. Segev, R.T. Snodgrass, M.D. Soo, A. Tansel, P. Tiberio, G. Wiederhold, "A Consensus Glossary of Temporal Database Concepts", ACM SIGMOD Record, Vol. 23, N. 1, 1994.
(Konopnicki 1995) D. Konopnicki, O. Shmueli "W3QS: A query system for the World Wide Web", Proceedings of the 21rd International Conference on Very Large Databases (VLDB'95), 1995.
(Lomet 1990) D. Lomet and B. Salzberg "The Hb-Tree: a multidimensional indexing method with good guaranteed performance", ACM Trans. On Database Systems, vol. 15, n. 44, 1990.
(McGuff 1996) F. McGuff "Data modeling for data warehouses", October 1996, http://members.aol.com/fmcguff/dwmodel/dwmodel.htm
(Mendelzon 1996) A.O. Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.
(Newcombe 1991) S.R. Newcombe, N.A. Kipp, V.T. Newcombe "The "HyTime" Hypermedia/Time-based Document Structuring Language", Communications of the ACM, Vol. 34, No. 11, 1991.
(Slein 1997) J.A. Slein, F. Vitali, E.J. Whitehead, D.G. Durand "Requirements for Distributed Authoring and Versioning on the World Wide Web", ACM Standard View, 1997 (to appear).
(Snodgrass 1995.) R.T. Snodgrass (ed.), I. Ahn, G. Ariav, D. Batory, J. Clifford, C.E. Dyreson, R. Elmasri, F. Grandi, C.S. Jensen, W. Kaefer, N. Kline, K. Kulkarni, T.Y. Cliff Leung, N. Lorentzos, R. Ramakrishnan, J.F. Roddick, A. Segev, M.D. Soo, S.M. Sripada "The TSQL2 Temporal Query Language", Kluwer Academic Publishers, Boston, Massachussets, 1995.
(Tansel 1993) A. Tansel, J. Clifford, V. Gadia, S. Jajodia, A. Segev, R.T. Snodgrass (eds.), "Temporal Databases: Theory, Design and Implementation", Benjamin/Cummings Publishing Company, Redwood City, California, 1993.
(Zhuge 1996) Y. Zhuge, H. Garcia-Molina and J.L. Wiener. "The Strobe Algorithms for Multi-Source Warehouse Consistency", Proc. Conf. on Parallel and Distributed Information Systems, Miami Beach, FL, 1996.


10. Durata del Programma di Ricerca 24 (mesi)


11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
  1. P. Ciaccia, F. Rabitti, P. Zezula "Similarity Search in Multimedia Database Systems", 1st International Conference on Visual Information Systems (VISUAL'96), Melbourne, Australia, pp. 107-115, 1996.
  2. P. Ciaccia, M. Patella, P. Zezula "M-tree: An Efficient Access Method for Similarity Search in Metric Spaces", Proc. of 23rd International Conference on Very Large Data Bases (VLDB'97), Athens, Greece, 1997.
  3. P. Ciaccia "WaDer, an Integrated Environment for Managing Information on the Web", CSITE-CNR Technical Report, 1997.
  4. P. Ciaccia, P. Ciancarini, W. Penzo "Formal Requirements and Design Specifications:The Clepsydra Methodology", International Journal of Software Engineering and Knowledge Engineering", vol. 7, n. 1, pp. 1-42, 1997.


12. Risultati ottenibili con fondi propri
I risultati ottenibili con fondi propri riguardano principalmente lo studio dei principi. I prodotti attesi sono i seguenti:

  1. rapporto sulla prima versione del modello dei dati e del linguaggio di interrogazione di WaDer
  2. rapporto sull'architettura software di WaDer
  3. prototipo semplificato del sistema WaDer
  4. rapporto sullo studio teorico dell'integrazione del tempo di transazione e del tempo di validita` nel WWW
  5. rapporto sulle estensioni temporali per client Web
  6. rapporto sullo studio dell'estensione di formati di documenti Web
  7. rapporto sullo studio del modello concettuale per DW
  8. rapporto sulla progettazione concettuale per DW
  9. prototipo semplificato di un tool per la progettazione automatica di DW



13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)

13.1 Personale universitario dell'Università sede dell'Unità di Ricerca


No. Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. Ciaccia Paolo DEIS Professore Associato 8
2. Tiberio Paolo DEIS Professore Ordinario 8
3. Maio Dario DEIS Professore Ordinario 8
4. Scalas Maria Rita DEIS Professore Associato 8
5. Grandi Fabio DEIS Ricercatore 12
6. Penzo Wilma DEIS Ricercatore 12
7. Rizzi Stefano DEIS Ricercatore 12
8. Mazzullo Mario U.C. Card. Emat. Canc. Ricercatore 6

13.2 Personale universitario di altre Università:

No. Cognome Nome Università Dipart./Istituto Qualifica Mesi uomo

13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)

No. Cognome Nome Dipart./Istituto Mesi uomo

13.4 Titolari di borse per dottorato di ricerca

No. Cognome Nome Università sede amm. Dipart./Istituto Ciclo Mesi uomo
1. Golfarelli Matteo Bologna DEIS XI 12
2. Patella Marco Bologna DEIS XI 12

13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi

No. Cognome Nome Ente Qualifica Mesi uomo

13.6 Personale a contratto

No. Cognome Nome Qualifica Costo previsto Mesi uomo
1. X X Laureato 36 9
2. X X Laureato 36 9


14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)

QUADRO RD

Provenienza anno di assegnazione importo disponibile nome Resp. Naz.
Universita'  1997  36,000
Dipartimento    
MURST (ex 40%)  antecedente 1995  
MURST (ex 40%)  1995    
MURST (ex 40%)  1996    
CNR  1997  15,000
Unione Europea    
Altro    
TOTALE    51,000

14.1 Altro (origine e importi dettagliati):


15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)

QUADRO RA

Provenienza anno della domanda o stipula del contratto stato di approvazione disponibilità per il programma
Università  1997  disponibili in caso di accettazione della domanda  36,000
Dipartimento      
CNR      
Unione Europea      
Altro      
TOTALE      36,000

15.1 Disponibilità per il programma(articolare negli anni di durata del programma)

II anno: 36 milioni

15.2 Altro (origine e importi dettagliati)


16. Apparecchiature o grandi attrezzature

16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)

descrizione anno di acquisizione valore all'acquisto finanziamenti ottenuti dal MURST % di utilizzo per la ricerca proposta
 Workstation Unix  1995  50  0  50
 Server NT  1997  15  0  50
 Workstation SGI  1997  35  0  50

L'uso delle attrezzature disponibili richiede, per la ricerca proposta, interventi di adeguamento? no

Quota necessaria per l'adeguamento:


16.2 Descrizione sintetica dell'adeguamento richiesto


16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
  1. Descrizione:


    Valore presunto (milioni):    

  2. Descrizione:


    Valore presunto (milioni):    

  3. Descrizione:


    Valore presunto (milioni):    


17. Certifico la disponibilità e l'utilizzabilità dei fondi si



Firma ________________________________ (per la copia da depositare presso l'Ateneo)


18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)

Costo complessivo

di cui:
 216,000

Voce importo
Materiale inventariabile - (Voce A)  50,000
Spese generali - (Voce B)  166,000
Grandi attrezzature - (Voce GA)  


Risorse disponibili all'atto della domanda (RD)  51,000
Risorse acquisibili (RA)  36,000
Cofinanziamento richiesto al MURST  129,000
Costo minimo per garantire
la possibilità di verifica dei risultati
 144,000

Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")



Firma ____________________________________ Data 21/7/97
Ora  20:34:54