Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_016


1. Programma di Ricerca di tipo: interuniversitario


Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
Area: Scienze matematiche (35%)

2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)

3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Responsabile Scientifico dell'Unità di Ricerca
DE ANTONELLIS
(Cognome)
VALERIA
(Nome)

(Cognome acquisito - facoltativo)
Professore Ordinario
(Qualifica)
11/06/51
(Data di nascita)
DNTVLR51H51C976B
(Codice di identificazione personale)
BRESCIA
(Università)
INGEGNERIA
(Facoltà)
DIPARTIMENTO DI ELETTRONICA PER L'AUTOMAZIONE
(Dipartimento/Istituto)
03500-11222 C/C N.1
(Codice conto Tesoreria Unica del Dip/Ist.)
030/3715469
(Prefisso e telefono)
030/380014
(Numero fax)
DEANTONE@ELET.POLIMI.IT
(Indirizzo di posta elettronica)


5. Settori disciplinari interessati dal Programma di Ricerca
K05A K05B


6. Titolo specifico del programma svolto dall'Unità di Ricerca
TECNICHE E METODI PER INTEGRAZIONE E ANALISI DI INFORMAZIONI DA SORGENTI MULTIPLE ED ETEROGENEE


7. Descrizione del Programma dell'Unità di Ricerca
La ricerca dell'unita'di Brescia si articola su due temi:
1) Integrazione di informazioni e conoscenza da sorgenti multiple eterogenee (nell’ambito del tema 3 del progetto complessivo).
2) Analisi di informazioni e conoscenza da sorgenti multiple eterogenee (nell’ambito del tema 4 del progetto complessivo).
L'attivita' di ricerca sui temi 1) e 2) e' biennale e si articola in quattro fasi, semestrali.
Fase 1)
Tema 1 - Definizione preliminare delle possibili estensioni del modello di estrazione/integrazione sviluppato in ambito basi di dati, per poter considerare informazioni semi-strutturate.
Tema 2- Studio approfondito degli approcci al problema generale di estrazione ed analisi di conoscenza e di viste di informazioni eterogenee, sviluppati da altri gruppi di ricerca in ambito internazionale. Definizione preliminare di criteri e metodi per l'estrazione/analisi, basati su tecniche di clustering e knowledge discovery.
Prodotti della Fase 1:
Per ciascun tema, Rapporto Tecnico sullo stato dell'arte analizzato con indicazione di soluzioni preliminari alle problematiche di interesse.
Fase 2)
Tema 1 - Definizione di architetture basate su dizionari semantici per la ristrutturazione e l'integrazione di informazioni e conoscenza eterogenee.
Tema 2 Definizione di moduli di architettura di data warehouse che consentano la gestione di conoscenza e di viste di informazioni eterogenee, quali ad esempio, dizionari semantici, sistemi di regole, ontologie.
Prodotti della Fase2:
Per ciascun tema, Rapporto Tecnico sull'architettura di riferimento con specifica dei moduli componenti individuati per la gestione di conoscenza e viste di informazioni eterogenee.
Fase 3)
Tema 1. Definizione di una metodologia di integrazione di informazioni eterogenee basata su risoluzione di eterogeneita' e unificazione delle stesse.
Tema 2. Definizione di un approccio metodologico e di strumenti per l'analisi e il raffinamento di conoscenza e viste di informazioni eterogenee. Definizione di un linguaggio di interrogazione orientato all'estrazione di conoscenza.
Prodotti della Fase3:
Per ciascun tema, Rapporto Tecnico di descrizione della metodologia e specifica funzionale degli strumenti di supporto.
Fase 4)
Tema 1. Sviluppo di un'applicazione prototipale di dizionario semantico per l'integrazione di informazioni eterogenee.
Tema 2. Realizzazione di un ambiente di strumenti di supporto alla metodologia di analisi proposta.
Prodotti della Fase 4
Per ciascun tema, prototipo software degli strumenti di interesse.


8. Obiettivo del programma dell'Unità di Ricerca
Obiettivo della ricerca, per il tema “Integrazione di informazioni e conoscenza da sorgenti multiple eterogenee”, e' lo sviluppo di metodi e strumenti per la creazione di warehouse integrati di viste globali di informazioni e conoscenza, per supportare interrogazioni frequenti su siti di interesse e per guidare attivita' di navigazione tra siti eterogenei. Saranno considerate problematiche relative ad estrazione e integrazione di viste di informazioni semi-strutturate.
Si studieranno modelli concettuali per la descrizione di viste globali, e il disegno di un'architettura di warehouse che consenta di esplicitare relazioni semantiche che sussistono fra gli elementi delle viste, al fine di facilitare la gestione degli accessi e delle interrogazioni. Obiettivo della ricerca, per il tema “Analisi di informazioni e conoscenza da sorgenti multiple eterogenee”, e' la definizione di strumenti per l'analisi di informazioni relative a siti di interesse, per la progettazione di data warehouse a partire dalle descrizioni concettuali esistenti (ad esempio, schemi di sistema informativo/sito WWW). In particolare, si propone lo sviluppo di criteri e tecniche per l'analisi di viste basate su algoritmi di clustering e mining e la definizione di linguaggi di interrogazione orientati all'estrazione di conoscenza.


9. Base di partenza scientifica
L'estrazione di viste globali di informazioni per scopi di warehousing e interoperability e' oggetto di studio nella letteratura di basi di dati. In particolare, in questo ambito le ricerche si sono concentrate su tecniche per l'identificazione e risoluzione di eterogeneita' semantiche tra basi di dati autonome che cooperano secondo diverse architetture di interoperazione (Bright 1994, Hull 1997). Si parla di eterogeneita' semantica per indicare situazioni di disaccordo sul significato, interpretazione, o uso delle informazioni tra sistemi diversi e distribuiti, con riferimento alle descrizioni logiche e/o concettuali dei dati. Il problema, studiato inizialmente nella letteratura di integrazione di viste (Batini 1986), e' ora ripreso ed esteso a considerare le forme di eterogeneita' che si possono manifestare in sistemi distribuiti, in cui i siti pre-esistono e gli schemi dati sono stati progettati indipendentemente. Una classificazione completa delle tipologie di eterogeneita' che si manifestano tra schemi in federazioni di basi di dati relazionali e ad oggetti viene presentata (Kim 1995). Possibili approcci alla risoluzione di eterogeneita' semantiche prevedono l'unificazione degli schemi di interesse in un'unico schema globale. In (Reddy 1994), viene presentata una metodologia per l'unificazione di schemi eterogenei di basi di dati, basata sulla derivazione bottom-up di viste unificate a partire dalle descrizioni degli oggetti negli schemi di partenza e sulla rappresentazione esplicita delle conoscenze sulla semantica di tali oggetti sottoforma di proprieta' associate agli schemi. La creazione di viste globali di informazioni in sistemi distribuiti richiede anche strumenti per la ``mediazione di contesto'', che hanno il compito di guidare lo scambio di informazioni tra siti diversi, valutando le proprieta' di contesto associate alle informazioni ed effettuando le conversioni necessarie per mitigare le differenze tra contesti. Le architetture per la mediazione di contesti sono state studiate principalmente per basi di dati relazionali e prevedono una libreria di funzioni di conversione che realizzano le trasformazioni dei dati da un contesto sorgente a un contesto destinazione risolvendone i conflitti, e un dizionario dei metadati, dove sono rappresentati il contesto dei vari attributi (metadati) e un insieme di regole necessarie per l'assegnazione della semantica ai dati della base dati (Sciore 1994).
Le tecniche di analisi e unificazione studiate per sistemi eterogenei di basi di dati costituiscono il punto di partenza per la formulazione di tecniche di analisi e integrazione di informazioni eterogenee. Tali tecniche concepite essenzialmente per dati di tipo strutturato, vanno estese all'analisi di informazioni semi-strutturate, come le informazioni accessibili su siti Web, sulla base delle recenti pubblicazioni su modelli e linguaggi di interrogazione per siti Web e dati semi-strutturati (Levy 1996, Mendelzon 1996).
La ricerca nel campo del data mining o knowledge
discovery from databases (KDD) e' un settore molto giovane, comune a diverse aree di ricerca, tra cui l’area basi di dati, l'intelligenza artificiale, l'information retrieval ((Chen 1995, Etzioni 1996). Lo stato dell'arte fornisce un insieme di strumenti di
prima generazione per l'estrazione della conoscenza (Fayyad 1996).Tali
strumenti, nella loro varieta', rappresentano un buon punto di partenza che, tuttavia, non riesce a soddisfare le crescenti esigenze di strumenti
generali e integrati che permettano di supportare l'estrazione e l’analisi di informazioni semi-strutturate. Si avverte pertanto la necessita’ di strumenti metodologici che supportino l'uso di sistemi KDD e la loro integrazione con altri strumenti tra cui quelli di OLAP e di data warehouse (Inmon 1996). Le competenze dell'Unita' Operativa riguardano tecniche di unificazione di viste globali di informazioni in sistemi distribuiti e tecniche di ragionamento e data mining nell’ambito diagnosi di sistemi discreti reattivi.
L'attivita' dell’Unita’ Operativa e' stata rivolta sia ad attivita' di tipo teorico che di tipo prototipale e sperimentale. Lo studio teorico ha portato allo sviluppo di: i) un modello per la rappresentazione di concetti di riferimento (Castano 1995a/b, Castano 1997a) e di relazioni semantiche fra concetti all'interno di dizionari semantici organizzati per domini applicativi (Castano 1997b); ii) criteri e metriche basate sul concetto di affinita’ per gli aspetti di analisi e classificazione di viste di informazioni eterogenee in ambito di reingegnerizzazione (Castano 1996, Castano 1997c); iii) tecniche di ragionamento basate sul concetto di ricostruzione di storie per la diagnosi di sistemi discreti reattivi, nei quali il verificarsi di una anomalia determina una modifica nel tempo della struttura del sistema stesso (Baroni 1997a/b/c, Lamperti 1997). Per quanto riguarda la sperimentazione, il modello di integrazione e' stato applicato all'analisi di schemi di sistemi informativi eterogenei e distribuiti nel dominio della Pubblica Amministrazione (Batini 1996).
L'attivita' di ricerca e' stata svolta nell'ambito di progetti di ricerca di interesse internazionale e nazionale, MURST, CNR, e ESPRIT, fra cui i seguenti: Progetto Esprit F3 (From Fuzzy to Formal) e Progetto Strategico CNR-CINI "Informatica nella Pubblica Amministrazione".
(Baroni 1997a) P.Baroni, G.Lamperti, P.Pogliano, G.Tornielli, M.Zanella, “Automata-based reasoning for short circuit diagnosis in power transmission networks”, In Proc. of the Twelfth International Conference on Applications of Artificial Intelligence in Engineering - AIENG'97, Capri, Italy, July, 1997.
(Baroni 1997b) P.Baroni, G.Lamperti, P.Pogliano, G.Tornielli, M.Zanella, A diagnostic engine for power transmission networks, In Proceedings of the Int. Conf. on Informatics and Control - ICI&C'97, St.Petersburg, Russia, June, 1997.
(Baroni 1997c) P.Baroni, G.Lamperti, P.Pogliano, G.Tornielli, M.Zanella, A multi-interpretation approach to fault diagnosis in power transmission networks, In Proc. of the IFAC Symposium on Fault Detection, Supervision and Safety for Technical Processes- SAFEPROCESS'97, Hull, UK, August, 1997.
(Batini 1996) C. Batini, S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici, "Analysis of an Inventory of Information Systems in the Public Administration", Requirements Engineering Journal, Vol.1, no.1, 1996
(Cacace 1996) F.Cacace, G. Lamperti, Advanced Relational Programming, Mathematics and Its Applications Vol. 371, Kluwer Academic Publishers, Dordrecht, The Netherlands, June 1996, ISBN 0-7923-4081-7.
(Castano 1995a) S. Castano, V. De Antonellis, "Reference Conceptual Architectures for Re-engineering Information Systems", Int. Journal of Cooperative Information Systems, Vol. 4, nos. 2&3, 1995
(Castano 1995b) S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici, "Techniques for the analysis of conceptual schemas", in Atti del Terzo Convegno Nazionale SEBD95, Ravello, 1995
(Castano 1996) S. Castano, V. De Antonellis, B. Pernici, "Criteria and Metrics for Quantifying Similarity Factors", in Proc. IPMU'96, Int. Conf. on Information Processing and Management of Uncertainty in Knowledge-based Systems, Special Session on Software Reusability, Granada, Spain, 1996 (lavoro invitato)
(Castano 1997a) S. Castano, V. De Antonellis, "Engineering a Library of Reusable Conceptual Components", Information Software and Technology, No. 39, 1997
(Castano 1997b) S. Castano, V. De Antonellis, "Semantic Dictionary Design for Database Interoperability", in Proc. IEEE Int. Conf. on Data Engineering, ICDE'97, Birmingham, 1997
(Castano 1997c) S. Castano, V. De Antonellis, “A multi-perspective framework for the analysis of legacy information systems”, in Proc. Int. Conf. on Advanced Information Systems Engineering, CAiSE'97, Barcelona, 1997.
(Lamperti 1997) G.Lamperti, P.Pogliano, Event-based reasoning for short circuit diagnosis in power transmission networks, In Proc. of the Fifteenth Int. Joint Conf. on Artificial Intelligence - IJCAI-97, Nagoya, Japan, August, 1997.
(Batini 1986) C. Batini, M. Lenzerini, S.B. Navathe, ``A Comprehensive Analysis of Methodologies for Database Schema Integration'', ACM Computing Surveys, Vol.18, No.4, December 1986.
(Chen 1996) S. Chen, J.Han, and P.S. Yu, Data mining: An overview from a database perspective, IEEE TKDE, 8(6), 1996, pp. 866-883.
(Etzioni 1996) O. Etzioni, The World-Wide Web: quagmire or gold mine?, Communications of the ACM, 39(11), 1996.
(Inmon 1996) W.H. Inmon, The data warehouse and data mining, Communications of the ACM, 39(11), 1996.
(Fayyad 1996) U. Fayyad, G. Piatetsky-Shapiro, P. Smith, R. Uthurusamy (Eds.), Advances in Knowledge Discovery and Data Mining, AAAI / MIT Press, Cambridge, Mass.,1996.
(Hull 1997) R. Hull, "Managing Semantic Heterigeneity in Databases: A Theoretical Perspective", Tutorial presented to PODS'97, 1997.
(Kim 1995) W. Kim, I. Choi, S. Gala, M. Scheevel, "On Resolving
Schematic Heterogeneity in Multidatabase Systems'', in Modern Database Systems-The Object Model, Interoperability
and Beyond, W. Kim (Editor), ACM Press, 1995.
(Levy 1996) A.Y. Levy, A. Rajaraman, J.J. Ordille, "Querying Heterogeneous Information Sources Using Source Descriptions", in Proc. of 22th VLDB Conference, Mumbai(Bomaby), 1996.
(Mendelzon 1996) A. Mendelzon, G. Mihaila, T. Milo, "Querying the World Wide Web", in Proc. of First Int. Conf. on Parallel and Distributed Information Systems (PDIS'96), 1996.
(Reddy, 1994) M.P. Reddy, B.E. Prasad, P.G. Reddy, A. Gupta, ``A Methodology for Integration of Heterogeneous Databases'', IEEE Trans. on Knowledge and Data Engineering, Vol.6, No.6, December 1994.
(Sciore 1994) E. Sciore, M. Siegel, A. Rosenthal, ``Using Semantic
Values to Facilitate Interoperability Among Heterogeneous Information Systems'', ACM Trans. on Database Systems, Vol.19, No.2, June 1994


10. Durata del Programma di Ricerca 24 (mesi)


11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
  1. S. Castano, V. De Antonellis, "Engineering a Library of Reusable Conceptual Components", Information Software and Technology, No. 39, 1997
  2. C. Batini, S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici, "Analysis of an Inventory of Information Systems in the Public Administration", Requirements Engineering Journal, Vol.1, no.1, 1996
  3. S. Castano, V. De Antonellis, "Reference Conceptual Architectures for Re-engineering Information Systems", Int. Journal of Cooperative Information Systems, Vol. 4, nos. 2&3, 1995
  4. S. Castano, V. De Antonellis, "Semantic Dictionary Design for Database Interoperability", in Proc. IEEE Int. Conf. on Data Engineering, ICDE'97, Birmingham, 1997
  5. S. Castano, V. De Antonellis, “A multi-perspective framework for the analysis of legacy information systems”, in Proc. Int. Conf. on Advanced Information Systems Engineering, CAiSE'97, Barcelona, 1997.


12. Risultati ottenibili con fondi propri
Prodotti della Fase 1: N.2 Rapporti tecnici sullo stato dell'arte analizzato con indicazione preliminare di soluzioni proposte alle problematiche di interesse.
Prodotti della Fase2: N.2 Rapporti Tecnici sull'architettura di riferimento con specifica dei moduli componenti individuati per la gestione di conoscenza e viste di informazioni eterogenee.


13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)

13.1 Personale universitario dell'Università sede dell'Unità di Ricerca


No. Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. DE ANTONELLIS VALERIA ELET. PER AUT.NE Professore Ordinario 8
2. LAMPERTI GIANFRANCO ELET. PER AUT.NE Ricercatore 12

13.2 Personale universitario di altre Università:

No. Cognome Nome Università Dipart./Istituto Qualifica Mesi uomo
1. CASTANO SILVANA MILANO SCIENZE INF.NE Ricercatore 12

13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)

No. Cognome Nome Dipart./Istituto Mesi uomo

13.4 Titolari di borse per dottorato di ricerca

No. Cognome Nome Università sede amm. Dipart./Istituto Ciclo Mesi uomo
1. BIANCO GIOVANNI BRESCIA ELET. PER AUT.NE XI 8
2. RIZZI ALESSANDRO BRESCIA ELET. PER AUT.NE XI 8

13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi

No. Cognome Nome Ente Qualifica Mesi uomo

13.6 Personale a contratto

No. Cognome Nome Qualifica Costo previsto Mesi uomo


14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)

QUADRO RD

Provenienza anno di assegnazione importo disponibile nome Resp. Naz.
Universita'    
Dipartimento    
MURST (ex 40%)  antecedente 1995  
MURST (ex 40%)  1995    
MURST (ex 40%)  1996    
CNR    
Unione Europea    
Altro    
TOTALE    

14.1 Altro (origine e importi dettagliati):


15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)

QUADRO RA

Provenienza anno della domanda o stipula del contratto stato di approvazione disponibilità per il programma
Università  1997  disponibili in caso di accettazione della domanda  28,000
Dipartimento      
CNR      
Unione Europea      
Altro      
TOTALE      28,000

15.1 Disponibilità per il programma(articolare negli anni di durata del programma)

15.2 Altro (origine e importi dettagliati)


16. Apparecchiature o grandi attrezzature

16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)

descrizione anno di acquisizione valore all'acquisto finanziamenti ottenuti dal MURST % di utilizzo per la ricerca proposta
 Workstation SUN SPARK 10  1994  30  0  30
 Workstation SUN SPARK 20  1994  30  0  30
         

L'uso delle attrezzature disponibili richiede, per la ricerca proposta, interventi di adeguamento? no

Quota necessaria per l'adeguamento:


16.2 Descrizione sintetica dell'adeguamento richiesto


16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
  1. Descrizione:


    Valore presunto (milioni):    

  2. Descrizione:


    Valore presunto (milioni):    

  3. Descrizione:


    Valore presunto (milioni):    


17. Certifico la disponibilità e l'utilizzabilità dei fondi si



Firma ________________________________ (per la copia da depositare presso l'Ateneo)


18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)

Costo complessivo

di cui:
 70,000

Voce importo
Materiale inventariabile - (Voce A)  15,000
Spese generali - (Voce B)  55,000
Grandi attrezzature - (Voce GA)  


Risorse disponibili all'atto della domanda (RD)  
Risorse acquisibili (RA)  28,000
Cofinanziamento richiesto al MURST  42,000
Costo minimo per garantire
la possibilità di verifica dei risultati
 48,000

Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")



Firma ____________________________________ Data 22/7/97
Ora  13:56:1