Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_005


1. Programma di Ricerca di tipo: interuniversitario


Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
Area: Scienze matematiche (35%)

2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)

3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Responsabile Scientifico dell'Unità di Ricerca
SALZA
(Cognome)
SILVIO
(Nome)

(Cognome acquisito - facoltativo)
Professore Associato
(Qualifica)
05/03/48
(Data di nascita)
SLZSLV48C05H50IO
(Codice di identificazione personale)
ROMA La Sapienza
(Università)
INGEGNERIA
(Facoltà)
Dipartimento di Informatica e Sistemistica
(Dipartimento/Istituto)
172914
(Codice conto Tesoreria Unica del Dip/Ist.)
06/4991-8483
(Prefisso e telefono)
06/85300849
(Numero fax)
salza@dis.uniroma1.it
(Indirizzo di posta elettronica)


5. Settori disciplinari interessati dal Programma di Ricerca
K05A K05B


6. Titolo specifico del programma svolto dall'Unità di Ricerca
Metodologie e strumenti per la gestione, l'analisi e la visualizzazione dei dati estratti dal WWW.


7. Descrizione del Programma dell'Unità di Ricerca
Il programma biennale dell'unita' di ricerca si articola su quattro fasi di durata semestrale:
1) Analisi dello stato dell'arte e definizione preliminare di modelli per la rappresentazione e visuallizzazione dei dati.
Il progetto di ricerca prevede una iniziale attivita' di approfondimento dello stato dell'arte nel settore della gestione e visualizzazione di grandi quantita' di dati. L'attivita' di analisi verra condotta ponendo particolare attenzione alla possibilita' di specializzare gli approcci proposti ad applicazioni su WWW. Successivamente, sulla base di quanto ottenuto verranno analizzati e definiti, in forma preliminare, alcuni modelli possibili sia per quanto riguarda gli aspetti di estrazione dei dati e della lore gestione nel data warehouse, che per la loro organizzazione nelle strutture di visualizzazione che verranno utilizzate nell'analisi visuale. In particolare per gli aspetti di visualizzazione i modelli in questione dovranno, inoltre, prevedere sia la possibilita' di descrivere i meccanismi con cui implementare l'adattabilita' dell'interfaccia utente sia permettere la definizione formale del dialogo con l'utente stesso.
Questa fase dara' luogo ai seguenti prodotti:
- documento sullo stato dell'arte nel settore del data warehousing, contenente anche una proposta preliminare per un contesto di datawarehose distribuito accessibile da WWW.
- documento sullo stato dell'arte nel settore della visualizzazione di grandi quantita' di dati.
- documento contenente una prima descrizione dei modelli formali che verranno utilizzati per gestire la visualizzazione e l'interazione con l'utente.
2) Definizione dell'architettura di riferimento per la gestione di un data warehouse distribuito accessibile da WWW e la visualizzazione delle informazioni da essa estratte. Conclusa la fase di ricognizione, l'attivita' di ricerca si concentrera' sull'analisi e la definizione di una architettura hardware e software di riferimento in cui sara' prevista l'integrazione del modulo di visualizzazione dei dati con i moduli di raccolta e gestione degli stessi. Si pensa di considerare un'architettura di data warehousing distribuita, che tenga conto sia dei costi di trasferimento dei dati sulla rete nella fase di estrazione ed immissione nel data warehouse, che dei costi di accesso da parte delle applicazioni di analisi. Cio' suggerisce di adottare un'architettura basata su una filosofia di 'function shipping', mutuata dal contesto delle basi di dati distribuite e parallele. Inoltre l'architettura prevede la rappresentazione esplicita dei legami concettuali tra le varie componenti del data warehouse distribuito, che fornisce un ulteriore input per il processo di ottimizzazione. Riguardo agli aspetti di visualizzazione, i modelli formali individuati nella prima fase verranno raffinati e validati tramite la loro sperimentazione su un esempio di riferimento. In questa fase, inoltre, verranno integrati i contributi teorici provenienti dalle varie unita' coinvolte nel progetto giungendo cosi' alla definizione di un ambiente formale che permetta di modellare tutte le caratteristiche necessarie allo sviluppo dell'interfaccia utente.
Questa fase dara' luogo ai seguenti prodotti:
- documento contenente la descrizione dell'architettura del sistema, e una sua analisi in termini di rappresentazione del carico e delle prestazioni;
- prototipo di uno strimento per l'analisi del carico di applicazioni di data warehousing su piattaforma parallela;
- documento contenente la definizione delle strutture di rappresentazione del modello usato per la progettazione dell'interfaccia utente.
3) Definizione della metodologia di progetto del data warehouse, e realizzazione di un protipo di primo livello del modulo di visualizzazione dei dati.
La metodologia copre tutte le fasi che vanno dall'individuazione di dati rilevanti per un'applicazione alla loro migrazione dalle sorgenti WWW al data warehouse, alla distribuzione dei dati e alla visualizzazione. In particolare la metodologia prevede uno specifico formalismo per la rappresentazione delle interrelazioni tra dati del data warehouse e sorgenti informative, e un insieme di procedure di inferenza che consentono di derivare interrelazioni implicite. Inoltre vengono coperti tutti gli aspetti di analisi del carico, prevedendo specifiche procedure di partizionamento dei dati e per il bilanciamento del carico. Questa aprte della metodologia sara' supportata da uno specifico strumento modellistico per l'analisi dei costi e delle prestazioni. Infine, sulla base dei risultati teorici ottenuti nel primo anno, si procedera' in questa fase alla implementazione di un primo prototipo del modulo di visualizzazione. Lo sviluppo del prototipo, avverra' in collaborazione con le altre unita' afferenti al tema della visualizzazione. Nella sua prima versione il prototipo prevedera' la gestione delle funzionalita' principali, ovvero gestione di un semplice modello utente con relativa adattabilita', dell'interfaccia, visualizzazione e manipolazione dei dati provenienti dal WWW. Il prototipo, coerentemente con le scelte architetturali delineate nella fase 2 sara' realizzato in modo da poter essere facilmete utilizzato tramite WWW. Questa fase dara' luogo ai seguenti prodotti:
- documento che illustra la metodologia di progetto del data warehouse.
- prototipo di uno strumento modellistico per l'analisi dei costi e delle prestazioni del data warehouse, e il supporto al suo dimensionamento;
- prototipo di uno strumento per la derivazione di interrelazioni esplicite tra dati del data warehouse e sorgenti informative;
- prototipo di primo livello dell'interfaccia utente.
4) Sviluppo e sperimentazione di un'applicazione prototipale utilizzando le metodologie e gli strumenti definiti nel progetto.
Scopo di questa di questa fase e' la sperimentazione operativa delle metodologie messe a punto nelle tre fasi precedenti, nonche' l'integrazione dei prototipi sviluppati per i singoli moduli. Questa fase verra' pertanto svolta in stretto coordinamento con le altre unta' del progetto, e consistera' nella scelta di un'applicazione sufficientemente completa ed articolta da consintere un collaudo significativo, di tutti i passi del processo di sviluppo e di tutti i moduli del sistema. In particolare per quanto concerne l'interfaccia utente sara' intrapresa una specifica sperimentazione tesa a caratterizzarne in modo quantitativo il livello di usabilita'.
Questa fase dara' luogo ai seguenti prodotti:
- realizzazione, in collaborazione con altre unita', di un'applicazione prototipale che copra tutti i principali aspetti, che vanno dall'estrazione dei dati da WWW alla loro visualizzazione tramite interfaccia utente amichevole.
- documento finale che espone sitematicamente la metodologia di sviluppo di applicazioni per la raccolta e l'accesso tramite interfacce visuali a dati estratti dal WWW.
- documento contenente i risultati dello studio di usabilita'.
- documento finale sulle tecniche di analisi delle prestazioni di data warehouse.


8. Obiettivo del programma dell'Unità di Ricerca
Obiettivo di questa ricerca e' lo sviluppo di metodologie innovative, sia per la progettazione e la gestione di data warehouse che raccolgono informazioni estratte dal WWW, sia per l'analisi e la visualizzazione di informazioni da esse derivate con accesso sia locale che remoto tramite Web. In tale ottica si intende fornire soluzioni per due ordini di problemi:
a) definizione di un'architettura di warehouse distributa e di metodologie di progetto dello schema e delle procedure di estrazione e di accesso alla data warehouse;
b) definizione e progetto di interfacce visuali per la gestione del risultato del processo di analisi dei dati contenuti nella data warehouse.


9. Base di partenza scientifica
Le applicazioni Data Warehouse vengono attualmente affrontate mediante l'utilizzo di strumenti ad-hoc. Manca ancora un quadro metodologico ben consolidato, sebbene negli ultimi anni siano stati condotti alcuni importanti progetti di ricerca, come ad esempio e presso l'Universitaâ di Stanford e l'Universitaâ del Colorado . Tali progetti hanno messo il evidenza lâimportanza di modelli sia concettuali che logici per il Data Warehousing. Nelle recenti proposte, i modelli concettuali vengono mutuati dalla ricerca nella integrazione di basi di dati (Batini et al. 1986, Catarci e Lenzerini 1993), con l'aggiunta di opportuni costrutti per rappresentare dati aggregati, quali quelli studiati nell'ambito di basi di dati statistiche . Per quanto riguarda i modelli logici, sono attualmente allo studio due diversi approcci (Agrawal et al. 1996). Il primo si basa sul modello relazionale, ed assume che le query di tipo OLAP siano tradotte in opportune estensioni di SQL. Il secondo si basa sullâutilizzo di strutture di dati ad-hoc, chiamati ipercubi, trattate con una opportuna algebra per esprimere le query. Una serie di problemi interessanti riguardano il livello di progettazione fisica della data warehouse, dato che nella maggior parte dei casi una parte rilevante del carico e' predefinita e quindi ben caratterizzazbile. Si pensi da un lato alle applicazioni che immettono i dati nella warehouse, e dall'altro a quelle che da essa li estraggono, siano esse applicazioni OLAP lanciate periodicamente, oppure processi di estrazione verso warehouse di livello superiore. Inoltre dato il volume di dati occorre fare riferimento a piattaforme di elaborazione parallela, oggi tipicamente rappresentate da sistemi MPP con architettura shared nothing. Questo rende proponibile un approccio di progettazione fisica della warehouse che ottimizza le prestazioni in base al profilo del carico. Per impostare questo discorso si puo' fare riferimento a risultati riguardanti l'ottimizzazione di query in contesto parallelo (Graefe 1993), e a risultati piu' recenti riguardo a modelli di prestazioni di sitemi paralleli per basi di dati (Salza e Renzetti 1997).
Inoltre l' importanza dell'accesso a grandi quantita' di dati e' direttamente proporzionale alla capacita' di estrarre da essi informazioni utili. L'utente che dopo una ricerca sul WWW ha ritrovato certi dati deve essere messo in grado di scoprire facilmente la presenza o meno di fenomeni rilevanti, che meritino di essere approfonditi con ulteriori elaborazioni ed accesso ad altre fonti. Recenti ricerche mostrano che, dal punto di vista dell'utente, la tecnica piu' efficace per individuare particolarita' rilevanti o fenomeni interessanti nella distribuzione di grandi quantita' di dati e' la visualizzazione. In particolare, e' fondamentale disporre di vari tipi di visualizzazioni, che permettano di esaminare lo stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche. Il problema della generazione di visualizzazioni significative per l'utente e' particolarmente sentito, come dimostrano le numerose pubblicazioni disponibili in letteratura. Per citare i contributi piu' recenti, basta riferirsi ai lavori (Pitkow e Pirolli 1997, Card et al. 1997) e ai riferimenti in essi contenuti. Tutorials e special issues sull'argomento sono stati presentati in congressi e riviste importanti. In particolare, i due gruppi proponenti la ricerca vantano anni di esperienza nell'uso di tecniche di visualizzazione in interfacce per basi di dati, e buona parte di tale ricerca e' stata svolta in collaborazione (Catarci et al. 1993, Santucci e Palmisano 1994, Catarci et al. 1995, Catarci et al. 1996). La ricerca proposta e' dunque la naturale evoluzione di ricerche in corso, estendendo gli studi sulle interfacce visuali per basi di dati a interfacce per il WWW. Tiziana Catarci, Maria Francesca Costabile e Giuseppe Santucci sono promotori, organizzatori e curatori degli atti dei workshops internationali su Advanced Visual Interfaces, che si tengono ogni due anni a partire dal 1992 . Hanno inoltre lavorato nel Working Group della CEE dal titolo "Foundamentals of 3D Visualizations".
RIFERIMENTI
- C. Batini, M. Lenzerini, S. Navathe. A Comparative Analysis of Methodologies for Database Schema Integration. ACM Computing Surveys Vol. 18, N. 4, 1986.
- T. Catarci, M. Lenzerini. Representing and Using Interschema Knowledge in Cooperative Information Systems. Journal of Intelligent and Cooperative Information Systems, Vol. 2, N. 4, 1993.
- R. Agrawal, A. Gupta, S. Sarawagi. Modeling Multidimensional Databases, IBM Research Report 1996.
- G. Graefe. Query evaluation techniques for large databases. ACM Computing Surveys, 25(2):73--170, 1993.
- S. Salza, M. Renzetti. A Modeling Tool for Workload Analysis and Performance Tuning of Parallel Database Applications . Proc. ADBIS'97, St. Petersburg, Sept. 1997.
- J. Pitkow, P. Pirolli: "Life, Death, and Lawfulness on the Electronic Frontier", Proc. CHI'97, Atlanta, 22-27 March 1997, ACM Press, (383-390).
- S. Card, S. G. Eick, N. Gershon: "Information Visualization", Tutorial n.30 presented at CHI'97, Atlanta, 22-27 March 1997.
- T. Catarci, S-K Chang, M. F. Costabile, S. Levialdi, G. Santucci: "A Multiparadigmatic Visual Environment for Adaptive Access to Databases", Proceedings Conference on Human Factors in Computing Systems, INTERCHI'93, Amsterdam, Aprile 1993, ACM Press, (7-8).
- G.Santucci, F. Palmisano: "A Dynamic Form Based Data Viewer for Semantic Query Languages", Proceedings 2nd International Workshop on User Interfaces to Databases, Luglio 1994.
- T. Catarci, M.F. Costabile, M. Matera: "Visual Metaphors for Interacting with Databases", ACM-SIGCHI Boulletin, Vol. 27, N. 2, 1995, (15-17).
- T. Catarci, S-K Chang, M.F. Costabile, S. Levialdi e G. Santucci: "A Graph-based Framework for Multiparadigmatic Visual Access to Databases", IEEE Transactions on Knowledge and Data Engineering, Vol. 8, N. 3, 1996, (455-475).


10. Durata del Programma di Ricerca 24 (mesi)


11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
  1. S. Salza, G. Barone, T. Morzy. Distributed Query Optimization in Loosely Coupled Multidatabase Systems. Proc. IDCT '95, Prague. In "Database Theory - IDCT '95", Lecture Notes in Computer Science n.893, Springer-Verlag, Berlin 1995.
  2. S. Salza, M. Terranova. Efficient Support of object oriented applications on a distributed database architecture. Foundation of Computing and Decision Sciences, Vol. 21, No. 3, 1996.
  3. S. Salza, M. Terranova. Design and Implementation of a Distributed Object Oriented Architecture. Proc. ESDA 1996, Vol. 7 pp. 157-164, Monpellier July 1996.
  4. R. Baldoni, S. Salza. Performance Modeling of Deadlock Detection Methods in Multidatabase Systems. Proc. PDCS '96, Vol.2 pp.672-677, Dijon 1996.
  5. S. Salza, M. Renzetti. A modeling tool for workload analysis and performance tuning of parallel database applications. Proc. ADBIS '97, St. Petersburg 1997.


12. Risultati ottenibili con fondi propri
In linea di principio si intende finanziare con i fondi gia' disponibili la parte della ricerca riguardante le tematiche generali nel settore del data warehousing e della visualizzazione di grandi quantita' di dati, viceversa il finanziamento oggetto della presente richiesta consentira' di estendere i risultati cosi' ottenuti e di specializzare l'attivita' di ricerca verso le tematiche specifiche del contesto WWW. In particolare, col riferimento ai prodotti previsti nel programma di ricerca si ritiene di poter finanziare con fondi propri gli studi sullo stato dell'arte, la proposta preliminare di un'architettura di data warehouse distribuito e il prototipo di primo livello dell'interfaccia utente.


13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)

13.1 Personale universitario dell'Università sede dell'Unità di Ricerca


No. Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. Salza Silvio Dip. Informatica e Sistemist. Professore Associato 8
2. Batini Carlo Dip. Informatica e Sistemist. Professore Ordinario 8
3. Lenzerini Maurizio Dip. Informatica e Sistemist. Professore Ordinario 8
4. Catarci Tiziana Dip. Informatica e Sistemist. Ricercatore 8
5. Santucci Giuseppe Dip. Informatica e Sistemist. Ricercatore 8

13.2 Personale universitario di altre Università:

No. Cognome Nome Università Dipart./Istituto Qualifica Mesi uomo

13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)

No. Cognome Nome Dipart./Istituto Mesi uomo
1. De Giacomo Giuseppe Dip. Informatica e Sistemist. 12

13.4 Titolari di borse per dottorato di ricerca

No. Cognome Nome Università sede amm. Dipart./Istituto Ciclo Mesi uomo

13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi

No. Cognome Nome Ente Qualifica Mesi uomo

13.6 Personale a contratto

No. Cognome Nome Qualifica Costo previsto Mesi uomo


14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)

QUADRO RD

Provenienza anno di assegnazione importo disponibile nome Resp. Naz.
Universita'  95  4,000
Dipartimento    
MURST (ex 40%)  antecedente 1995  
MURST (ex 40%)  1995  5,000  Paolo Atzeni
MURST (ex 40%)  1996    
CNR    
Unione Europea  1996  41,000
Altro    
TOTALE    50,000

14.1 Altro (origine e importi dettagliati):


15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)

QUADRO RA

Provenienza anno della domanda o stipula del contratto stato di approvazione disponibilità per il programma
Università      
Dipartimento      
CNR      
Unione Europea      
Altro      
TOTALE      

15.1 Disponibilità per il programma(articolare negli anni di durata del programma)

15.2 Altro (origine e importi dettagliati)


16. Apparecchiature o grandi attrezzature

16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)

descrizione anno di acquisizione valore all'acquisto finanziamenti ottenuti dal MURST % di utilizzo per la ricerca proposta
 Sun Sparcstation  1994  50  0  20
 3 PC Pentium 166/200 Mhz  1996  15  0  40
 3 Workstation MacIntosh  1995  20  0  40

L'uso delle attrezzature disponibili richiede, per la ricerca proposta, interventi di adeguamento? no

Quota necessaria per l'adeguamento:


16.2 Descrizione sintetica dell'adeguamento richiesto


16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
  1. Descrizione:


    Valore presunto (milioni):    

  2. Descrizione:


    Valore presunto (milioni):    

  3. Descrizione:


    Valore presunto (milioni):    


17. Certifico la disponibilità e l'utilizzabilità dei fondi si



Firma ________________________________ (per la copia da depositare presso l'Ateneo)


18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)

Costo complessivo

di cui:
 120,000

Voce importo
Materiale inventariabile - (Voce A)  15,000
Spese generali - (Voce B)  105,000
Grandi attrezzature - (Voce GA)  


Risorse disponibili all'atto della domanda (RD)  50,000
Risorse acquisibili (RA)  
Cofinanziamento richiesto al MURST  70,000
Costo minimo per garantire
la possibilità di verifica dei risultati
 80,000

Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")



Firma ____________________________________ Data 18/7/97
Ora  13:2:17