MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9909A77532_001


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web

Testo inglese

Data-X: Management, Transformation and Exchange of Data in a Web Environment

1.4 Coordinatore Scientifico del Programma di Ricerca

ATZENI PAOLO  
(cognome) (nome)  
Università degli Studi ROMA TRE Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E AUTOMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


atzeni@dia.uniroma3.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

ATZENI PAOLO  
(cognome) (nome)  


Professore ordinario 27/04/1957 TZNPLA57D27H501O
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi ROMA TRE Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E AUTOMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


+39-0655173213 +39-065573030 atzeni@dia.uniroma3.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A


1.7 Parole chiave

Testo italiano
BASI DI DATI ; WORLD WIDE WEB ; XML ; DOCUMENTI ; MODELLI DI DATI ; LINGUAGGI DI INTERROGAZIONE ; METODOLOGIE DI PROGETTO ; VINCOLI DI INTEGRITA' ; STRUMENTI CASE

Testo inglese
DATABASES ; WORLD WIDE WEB ; XML ; DOCUMENTS ; DATA MODELS ; QUERY LANGUAGES ; DESIGN METHODOLOGIES ; INTEGRITY CONSTRAINTS ; CASE TOOLS


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Paolo Atzeni e' Professore Ordinario di Basi di Dati all'Universita' di Roma Tre. Si e' laureato in in Ingegneria Elettronica presso l'Universita' di Roma "La Sapienza" nel 1980. Prima di afferire all'Universita' di Roma Tre, e' stato ricercatore allo IASI-CNR di Roma, Professore Associato all'Universita' di Napoli e Professore Ordinario presso l'Universita' "La Sapienza" di Roma. E' inoltre stato professore visitatore presso l'Universita' di Toronto.

La sua attivita' di ricerca ha riguardato vari argomenti nel settore delle basi di dati, tra cui:
  • Equivalenza tra basi di dati relazionali.
  • Fondamenti della teoria relazionale.
  • Linguaggi per modelli concettuali.
  • Strumenti per il progetto logico di basi di dati.
  • Teoria delle dipendenze nelle basi di dati con valori nulli.
  • Modello "Weak instance": analisi di schemi e interrogazioni.
  • Proprieta' formali di schemi di rappresentazione della conoscenza.
  • Cooperazione tra basi di dati.
  • Basi di Dati e World Wide Web.
Negli ultimi tre anni il suo interesse e' stato principalmente dedicato allo studio di metodi e strumenti per la gestione di dati in ambiente Web.

Ha pubblicato i suoi risultati di ricerca sulle principali riviste del settore, incluse ACM Transactions of Database Systems, Information Systems, SIAM Journal of Computing, Journal of Computer and System Sciences, e negli atti delle principali conferenze (ACM-SIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). E' autore di sei libri e curatore di quattro; tra questi ultimi figurano gli atti di tre conferenze di cui e' stato tra gli organizzatori: ICDT'96, DBPL'95 e il recente Workshop on Databases and the Web (WebDB'98), tenuto Valencia nel 1998. E' stato membro dei comitati di programma di varie conferenze internazionali, ed e' attualmente presidente dell'Associazione EDBT.

Testo inglese

Paolo Atzeni is Database Professor at Universita' di Roma Tre. He received his Dr. Ing. degree in Electrical Engineering from Universita' di Roma "La Sapienza" in 1980. Before joining Universita' di Roma Tre, he was member of the research staff at IASI-CNR in Rome, Associate Professor at Universita' di Napoli and Professor at Universita' di Roma La Sapienza. He also had a visiting appointment at the University of Toronto.

His research has considered various topics in the database field, including the following:
  • Equivalence of relational databases.
  • Foundations of relational database theory.
  • Languages for conceptual models.
  • Tools for the conceptual design of databases.
  • Dependencies in relational databases with null values.
  • Weak instance model: schema analysis and query answering.
  • Formal properties of knowledge representation schemes.
  • Cooperation of database systems
  • Databases and the Web
In the last three years, his major interest has been on methods and tools tools for the management of data coming from the World Wide Web.

He has published his research result in the major journals of the field, including ACM Transactions of Database Systems, Information Systems, SIAM Journal of Computing, Journal of Computer and System Sciences and in the refereed proceedings of all the major conferences (ACM-SIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). He has authored six books and edited four, including the proceedings of three conferences for which he was one of the major organizers: ICDT'96, DBPL'95 and the Workshop on Databases and the Web (WebDB'98), held in Valencia in 1998. He has also been program committe member for many international conferences. He is currently serving as President of the EDBT Association.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. ATZENI P., MECCA G., MERIALDO P., "To Weave the Web" , Rivista: Very Large Databases (VLDB'97) , pp.: 206-215 , (1997) Morgan-Kaufmann .
  2. ATZENI P., MECCA G., MERIALDO P., "Semistructured and Structured Data on the Web: Going Back and Forth" , Rivista: ACM SIGMOD Record , Volume: 26(4) , pp.: 16-23 , (1997) .
  3. ATZENI P., MECCA G., MERIALDO P., "Design and Maintenance of Data-Intensive Web Sites" , Rivista: Extending Database Technology (EDBT'98) , pp.: 436-450 , (1998) LNCS n.1377, Springer Verlag .
  4. ATZENI P., MENDELZON A. O., MECCA G., (EDITORS), "Proceedings of the Workshop on the Web and Databases (WebDB'98)" , Rivista: Lecture Notes in Computer Science , Volume: 1590 , (1999) Springer-Verlag .
  5. MECCA G., ATZENI P., "Cut and Paste" , Rivista: Journal of Computing and System Sciences, Special Issue on PODS'97 , (1999) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  ATZENI  PAOLO  INFORMATICA E AUTOMAZIONE  Prof. ordinario  K05A  6  6
2  CABIBBO  LUCA  INFORMATICA E AUTOMAZIONE  Ricercatore  K05A  6  6
3  TORLONE  RICCARDO  INFORMATICA E AUTOMAZIONE  Prof. associato  K05A  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  MECCA  GIANSALVATORE  BASILICATA  INGEGNERIA E FISICA DELL'AMBIENTE  Ricercatore  K05A  7  7
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. X (IN VIA DI ATTRIBUZIONE)  INFORMATICA E AUTOMAZIONE  1998  10 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. CRESCENZI  VALTER  INFORMATICA E AUTOMAZIONE  2001  18 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. laureato  25  10 
2. laureato  10 
3. laureato  25  10 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Strumenti e Tecniche per la Gestione di Dati in Ambiente Web

Testo inglese

Tools and Techniques for Managing Data in a Web Environment

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

L'unita' di Roma Tre e' coinvolta in tutti e tre i temi della ricerca. Di seguito e' riportata la base di partenza scientifica per gli argomenti di interesse all'interno dei tre temi, descrivendo contemporaneamente il quadro scientifico internazionale ed i contributi specifici prodotti dall'unita'.

Nell'ambito del TEMA 1: Analisi e Classificazione di Sorgenti di Dati in Ambiente Web, gli interessi dell'unita' si appuntano sulle tecniche per il riconoscimento di struttura all'interno di sorgenti di dati HTML/XML. In letteratura, i primi approcci per la generazione di viste strutturate su siti Web, erano basati su tecniche manuali (Mecca, Atzeni 1999) (Hammer et al., 1997) (Crescenzi, Mecca 1998); queste proposte assumono che un programmatore esamina un sito e manualmente definisce il codice per produrre programmi (detti "wrappers") che astraggono le caratteristiche logiche delle pagine HTML e ne memorizzano il contenuto in una base dati locale. Questi approcci si focalizzano sullo sviluppo di linguaggi e strumenti a supporto di questo processo. Altri approcci hanno studiato il problema di inferire in modo (semi)automatico lo schema di una collezione di pagine Web strutturare. La maggior parte di questi approcci e' fortemente basato sull'uso di euristiche. Per esempio in (Ashish, Knoblock 1997), gli autori sviluppano un approccio pragmatico per identificare attributi in una pagina HTML; la tecnica e' basata sulla identificazione di specifici tags di formattazione (come quelli per le intestazioni, il grassetto, etc.) al fine di riconoscere porzioni semanticamente rilevanti di una pagina Web. Un approccio alternativo e' quello sviluppato in (Kushmerick et al. 1997) e (Adelberg, 1998). In queste proposte, si assume che il generatore di wrapper abbia una qualche conoscenza a priori sulla semantica della pagina. Un contesto formale per lo studio di tecniche completamente automatiche per il riconoscimento di struttura in sorgenti testuali e' stato introdotto recentemente in (Grumbach, Mecca 1999).

Problemi simili sono stati studiati anche in altri contesti. Per esempio, il lavoro in (Brin, 1998) e' finalizzato ad estrarre insiemi di tuple di un tipo predefinito (ad esempio coppie di titoli di libri e nomi di autori) non tanto da un insieme omogeneo di pagine in un sito, quanto dall'ampio ed eterogeneo insieme di pagine che costituiscono l'intero Web. In (Nestorov et al., 1998) gli autori affrontano il problema di come raggruppare oggetti simili in un database semistrutturato, cioe' di come inferire una qualche forma di schema partendo da dati privi di una descrizione intensionale.

Per quanto riguarda il TEMA 2: Modellizzazione e Interrogazione di Sorgenti di Dati in Ambiente Web e' necessario notare che l'enorme massa di dati pubblicati sul World Wide Web ha prodotto una serie di lavori di ricerca su tecniche per l'interrogazione e la ristrutturazione del contenuto dei dati semistrutturati in ambiente Web. In particolare, sono stati definiti diversi modelli dei dati e linguaggi di interrogazione. Seguendo (Florescu et al., 1998), questi linguaggi possono essere classificati come "linguaggi di prima generazione" -- per esempio, W3QL (Konopnicki, Shmueli, 1995), WebSQL (Mendelzon et al., 1996) -- basati su di un modello dei dati elementare con pagine e puntatori, e "linguaggi di seconda generazione", che permettono anche di modellare i dati all'interno delle pagine Web, e sono basati su modelli dei dati semistrutturati, come ad esempio i linguaggi di Lorel (Abiteboul et al., 1997), UnQL (Buneman et al., 1996), Strudel (Fernandez et al., 1998).

Queste proposte sono state recentemente estese all'interrogazione di documenti XML (Query Languages 1998). Le prime proposte per i linguaggi di interrogazione per XML (Deutsch et al., 1998) (Ishikawa et al.,1998) (Robie et al., 1998) si concentrano su un singolo documento alla volta, e sono ispirate ad un approccio fortemente "semistrutturato", in cui il processo di interrogazione non si basa affatto sul concetto di schema. Al contrario, sarebbe importante che il supporto all'interrogazione di sorgenti XML permetta di gestire complesse collezioni di documenti collegati fra loro. Inoltre, poiche' ai dati XML e' esplicitamente associata una struttura, il DTD, il processo di interrogazione puo' beneficiarsi della conoscenza di questa struttura.

Nell'ambito delle attivita' di ricerca condotte dall'unita' e' stato sviluppato un modello dei dati, chiamato ADM (Atzeni et al., 1997), per la descrizione di siti HTML. Sulla base di tale modello e' stato inoltre sviluppato un sistema, chiamato Araneus Web-Base Management System (Mecca et al., 1998b). Il sistema fornisce una serie di strumenti per l'estrazione di dati da sorgenti Web, tra cui un linguaggio di interrogazione, Ulisse (Atzeni et al., 1997). Sia ADM che Ulisse sono stati largamente sperimentati per la descrizione e l'interrogazione di molti siti reali, come ad esempio siti bibliografici e musei elettronici. Inoltre sono state indagate tecniche per ottimizzare il processo di interrogazione (Mecca et al., 1998a). Una dichiarazione di intenti per estendere l'approccio alla interrogazione di sorgenti dati XML e' stata recentemente presentata ad un workshop promosso dal W3C (Mecca et al., 1998c).

Infine, relativamente al TEMA 3: Produzione e Scambio di Sorgenti di Dati in Ambiente Web l'unita' e' interessata ad approfondire lo studio delle metodologie e degli strumenti per la produzione di siti HTML/XML. In questo settore, varie metodologie (Atzeni et al., 1998) (Fraternali e Paolini., 1998) (Fernandez et al., 1998) sono state recentemente presentate per la progettazione di siti Web. Queste metodologie individuano tre aspetti fondamentali che caratterizzano un sito Web: i dati, la struttura ipertestuale, la presentazione dell'informazione. Le principali differenze tra i vari approcci consistono nel fatto che le proposte (Atzeni et al., 1998) e (Fraternali e Paolini, 1998) sono basate sull'uso di modelli che consentono una descrizione intensionale (schema) della struttura ipertestuale della sorgente dati; viceversa (Fernandez et al., 1998) adotta un approccio meno strutturato, in cui l'intera sorgente informativa viene vista come un grafo privo di struttura.

A supporto delle metodologie proposte, sono stati inoltre definiti strumenti e linguaggi per la realizzazione di siti HTML. In particolare, nell'ambito dell'Araneus Web-Base Management System (Mecca et al., 1998b), la nostra unita' ha sviluppato un linguaggio, chiamato Penelope, che consente in modo dichiarativo la creazione di siti Web HTML a partire da dati memorizzati su DBMS relazionali, ed uno strumento, Telemaco, che aiuta il progettista nella definizione del layout grafico da associare alle pagine del sito. Poche sono le proposte di strumenti CASE per la produzione di sorgenti Web; in generale, nessuno degli strumenti in commercio offre assistenza al progettista nella definizione di tutte e tre le componenti caratterizzanti la sorgente dati Web.

Testo inglese

The research unit of University of Roma Tre is involved in all themes of the project. In the following paragraphs, we briefly discuss the main contributions in the literature with respect to the specific research lines along which the work will proceed, along with some works recently done by members of the unit.

In the framework of THEME 1: Analysis and Classification of Data Sources in a Web Environment, the main interest is in studying and developing algorithms for inferring structure in HTML and XML data sources. The early approaches in the literature to structuring Web sites were essentially based on manual techniques (Mecca, Atzeni 1999) (Hammer et al., 1997) (Crescenzi, Mecca 1998); these proposals assume that a human programmer examines a site and manually codes wrappers that abstract the logical features of HTML pages and store them in a local database. The focus, here, is on the development of languages and tools to support this wrapping process. A number of other approaches have studied the problem of (semi-)automatically inferring the schema of a collection of fairly well structured Web pages. Most of these approaches heavily rely on the use of heuristics. For example, in (Ashish, Knoblock 1997), the authors develop a practical approach to identify attributes in a HTML page; the technique is based on the identification of specific formatting tags (like the ones for headings, boldface, etc.) in order to recognize semantically relevant portions of a page. An alternative approach is the one developed in (Kushmerick et al. 1997) and (Adelberg, 1998). In these cases, it is assumed that the wrapper generator has some a-priori knowledge about the semantics of a page. A theoretical framework for studying completely automatic approaches to structure discovery has been recently introduced in (Grumbach, Mecca 1999).

Similar problems have also been studied in other frameworks. For example, the work in (Brin, 1998) aims at extracting sets of tuples of a pre-determined type (e.g. pairs of book titles and author names) not from a set of homogeneous pages in a site, but from possibly heterogeneous pages in the whole Web. In (Nestorov et al, 1998) the authors address the problem of clustering similar objects in a semi-structured database, i.e., inferring some form of common schema starting from schemaless data.

With respect to THEME 2: Modeling and Querying Data Sources in a Web Environment, we note that the huge amount of data published via the World Wide Web has led to a number of research proposals related with querying and restructuring semistructured data. According to (Florescu et al., 1998), these languages can be classified as "first generation languages" -- for example W3QL (Konopnicki, Shmueli 1995), WebSQL (Mendelzon et al., 1996) -- which only deal with a basic data model of pages and links, and "second generation languages", which also allow to describe and query data inside Web pages, and support richer data models, such as Lorel (Abiteboul et al., 1997), UnQL (Buneman et al., 1996), Strudel (Fernandez et al., 1998).

These proposals have been recently extended to query XML documents (Query Languages 1998). Early proposals of query languages for XML (Deutsch et al., 1998) (Ishikawa et al., 1998) (Robie et al., 1998) concentrate on a single XML document at a time and are based on a strongly "semistructured" approach, where the query process does not rely on a notion of scheme. On the contrary, we believe that query support for XML should allow to manage complex collections of linked documents; also, since XML data do have an associated structure, the DTD, in our opinion the query process should exploit as much of this structure as it is possible.

In the framework of the Araneus Project, the unit of Roma Tre has recently proposed a data model, called ADM (Atzeni et al., 1997), specifically tailored to describe HTML data sources. Also, based on ADM, we have developed a system, called the Araneus Web-Base Management System (Mecca et al. 1998b) which incorporates several tools for data extraction on the Web, including a query language, called Ulixes (Atzeni et al., 1997). Both ADM and Ulixes have been largely experimented in modeling and querying several real life site, such as large bibliographic sites, or electronic museums. Also, optimization techniques for the language have been studied (Mecca et al., 1998a). Our plans to extend the approach to query XML data sources have been recently presented in a workshop promoted by the W3C (Mecca et al., 1998c).

The main research direction inside THEME 3: Production and Exchange of Data Sources in a Web Environment will be concerned with tools and methodologies for developing HTML and XML sites. In this field, several methodologies have been recently proposed (Atzeni et al., 1998)(Fraternali e Paolini, 1998)(Fernandez et al., 1998). All of these proposals identify three main levels in the design of a Web data source: data, hypertext structure, and presentation. The main differences among the various approaches consist in the fact that the work of (Atzeni et al., 1998) and (Fraternali e Paolini, 1998) are based on specific conceptual models that allow for an intensional description (a schema) of the data source; on the contrary, the approach described in (Fernandez et al., 1998) does rely on a less structured approach, and the whole Web site is seen as an unstructured graph.

To support the proposed methodologies, several tools and languages have been developed for the creation of HTML Web sites. In the context of the Araneus Web-Base Management System (Mecca et al., 1998b), we have developed a language, called Penelope (Atzeni et al., 1997) which allows for the creation of HTML Web sites from data stored in a relational database, and a tool, Telemaco, which help designers to define the graphical layout to associate with pages of the site. A few CASE tools have been proposed for the production of Web sources; also, none of the tools available on the market is able to assist designers in the definition of the all three levels of Web site design.

2.2.a Riferimenti bibliografici

(Abiteboul et al., 1997) S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. L. Wiener: "The lorel query language for semistructured data", J. of Digital Libraries, 1, 1997.

(Adelberg, 1998) B. Adelberg. "NoDoSE a tool for semi-automatically extracting structured and semistructured data from text documents". In ACM SIGMOD, 1998.

(Ashish, Knoblock 1997) N. Ashish, C. Knoblock. "Wrapper generation for semistructured Internet sources". In Workshop on the Management of Semistructured Data, 1997.

(Atzeni et al., 1997) P.Atzeni, G.Mecca, P.Merialdo "To Weave the Web". In VLDB'97. (1997)

(Atzeni et al., 1998) P.Atzeni, G.Mecca, P.Merialdo "Design and Maintenance of Data-Intensive Web sites". In EDBT, 1998.

(Brin, 1998) S. Brin, "Extracting Patterns and Relations from the World Wide Web", Workshop on the Web and Databases, WebDB, 1998.

(Buneman et al., 1996) Buneman, P. and Davidson, S. and Hillebrand, G. and Suciu, D., "A query language and Optimization Techniques for Unstructured Data", Proceedings of SIGMOD, 1996.

(Crescenzi, Mecca 1998). "Grammars have exceptions". Information Systems 23(8): 539-565 (1998).

(Deutsch et al., 1998) A.Deutsch, M.Fernandez, D.Florescu, A.Levy, D.Suciu. "XML-QL: a query language for XML". W3C Notes. (1998)

(Fernandez et al., 1998) M.Fernandez, D.Florescu, J.Kang, A.Levy, D.Suciu. "Catching the Boat with Strudel: Experiences with a Web-Site Management System". In ACM SIGMOD'98 (1998)

(Florescu et al., 1998) D.Florescu, A.Levy, A.Mendelzon. Database techiques for the world-wide web: a survey. ACM SIGMOD Record, 27(3), Sept. 1998.

(Fraternali, Paolini 1998) "A Conceptual Model and Tool Environment for Developing More Scalable, Dynamic, and Customizable Web Applications". In EDBT, 1998.

(Grumbach, Mecca 1999) S. Grumbach, G. Mecca "In Search of the Lost Schema", In Proc. of ICDT, 1999.

(Hammer et al., 1997) J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo. "Extracting semistructured information from the Web". In Workshop on the Management of Semistructured Data, 1997.

(Ishikawa et al.,1998) H.Ishikawa, K.Kubota, Y.Kanemasa "XQL: A Query Language for XML Data" - The W3C Query Languages Workshop, 1998.

(Konopnicki, Shmueli, 1995) D. Konopnicki, O. Shmueli: W3QS: A query system for the World Wide Web, Proceedings of VLDB, 1995.

(Kushmerick et al., 1997) N. Kushmerick, D. S. Weld, R. Doorenbos. "Wrapper induction for information extraction". In Int. Joint Conf. on Artificial Intelligence (IJCAI'97)(1997).

(Mecca, Atzeni 1999) G. Mecca, P. Atzeni "Cut and Paste", Journal of Computing and System Sciences, Special issue on PODS'97, 1999.

(Mecca et al., 1998a) G.Mecca, A.Mendelzon, P.Merialdo "Efficient queries over Web Views". In EDBT'98, 1998

(Mecca et al., 1998b) G.Mecca, P. Atzeni, A. Masci, P.Merialdo, G. Sindoni, "The Araneus Web-Base Management System". Proceedings of SIGMOD, 1998.

(Mecca et al., 1998c) G.Mecca, P. Merialdo, P. Atzeni, "Do We Really Need a New Query Language for XML ?". The W3C QL Workshop, 1998.

(Mendelzon et al., 1996) A.Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.

(Nestorov et al., 1998) S. Nestorov, S. Abiteboul, R. Motwani. "Extracting schema from semistructured data". In ACM SIGMOD, 1998.

(Query Languages 98) Proceedings of the W3C QL'98 Workshop http://www.w3.org/Tands/QL/QL98/.

(Robie et al., 1998) J.Robie, J.Lapp, D.Schach "XML Query Language (XQL)" - The W3C QL Workshop, Boston (1998).

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

Per quanto riguarda il Tema 1, l'obiettivo principale e' quello di studiare strumenti per il riconoscimento di struttura all'interno di documenti Web. Poiche' XML e' parzialmente tipato (i DTD possono esistere o meno, i link non sono tipati), importanti informazioni strutturali che la sorgente dati XML puo' presentare possono non essere esplicitamente descritte (ad esempio il fatto che un certo link, di una certa classe di documenti porta ad una istanza di un certo tipo). E' importante quindi sviluppare strumenti che, sulla base di un'analisi sintattica della sorgente dati, siano in grado di ricostruirne la struttura in maniera dettagliata. Inoltre, e' importante estendere le stesse tecniche anche alle sorgenti dati Web non-XML, per esempio ai milioni di pagine HTML che sono tuttora disponibili su Web (come anche ai dati in altri formati testuali); gli algoritmi e le tecniche sviluppate per XML verranno quindi estese al caso piu' generale - e molto piu' difficile - di HTML.

Nel contesto del Tema 2, l'obiettivo principale della ricerca sara' quello di definire un opportuno sistema per la interrogazione di sorgenti dati XML e HTML. Il punto di partenza e' rappresentato dall'adozione del modello di riferimento descritto nella "Base di Partenza Scientifica" del Modello A. Poiche' i link (sia XML-XLink che HTML) possono manifestare proprieta' che costituiscono importanti informazioni strutturali per il processo di interrogazione, lo studio di queste proprieta', formalizzate attraverso opportuni vincoli costituira' un approfondimento per il modello. Le sorgenti informative su Web sono generalmente autonome: possono subire modifiche, anche al livello intensionale, senza che queste vengano notificate al sistema di interrogazione. Pertanto, puo' verificarsi che la struttura di una sorgente Web differisca dalla descrizione, documentata attraverso i costrutti del modello, disponibile al sistema di interrogazione. Pertanto ci si propone di definire e sviluppare un nuovo linguaggio di interrogazione basato su tecniche innovative che da una parte consentano di utilizzare al meglio tutta l'informazione strutturale sulla sorgente disponibile al sistema, dall'altra permettano di rilevare e gestire opportunamente possibili modifiche a livello intensionale anche a tempo di esecuzione.

Infine, nell'ambito del Tema 3, l'unita' si propone di progettare e sviluppare uno strumento CASE per il processo di produzione (progettazione e implementazione) di sorgenti dati Web HTML e/o XML, ispirato al quadro metodologico di riferimento descritto nella "Base di Partenza Scientifica" del modello A. Lo strumento in oggetto dovra': 1) assistere il progettista nella definizione delle tre componenti principali della sorgente dati Web (dati, ipertesto, presentazione), 2) generare automaticamente il codice per la produzione della sorgente. Per la generazione della sorgente dati Web si utilizzera' il linguaggio Penelope, precedentemente sviluppato dalla unita' per la generazione di siti HTML, estendendolo opportunamente per la generazione di sorgenti XML-XSL.

Il programma di ricerca sara' articolato come segue:

Prima Fase


Nella prima fase, nell'ambito del Tema 1, verranno studiati e progettati algoritmi per la analisi della struttura di una sorgente dati XML, e la ricostruzione dei DTD mancanti e dei legami tra gli stessi (T1.1-R3). Gli algoritmi proposti hanno lo scopo di produrre una descrizione intensionale (schema) della sorgente basata sui costrutti del modello di riferimento definito nell'ambito del TEMA 2.

Per quanto riguarda il Tema 2, sulla base del modello di riferimento (T2.1-R1), nella prima fase verra' studiata la possibilita' di descrivere le proprieta' dei link XML, che possono essere non tipati, con vincoli di integrita'. Il modello, cosi esteso, verra' sperimentato nella descrizione di sorgenti Web HTML e XML (T2.1-R3).

In modo simile, nell'ambito del Tema 3 sulla base del contesto metodologico di riferimento (T3.1-R1) verra' per cominciare studiata e progettata l'architettura di uno strumento CASE che assista il progettista nelle varie fasi del progetto e dello sviluppo del sito (T3.1-R2). Lo strumento dovra' essere in grado di gestire e automatizzare le operazioni di trasformazione dei dati specificate interattivamente dall'utente a partire dallo schema concettuale del sito fino ad arrivare alla struttura dell'ipertesto finale, in modo da generare automaticamente il codice necessario alla creazione delle pagine. Verranno inoltre realizzate l'estensioni degli strumenti di produzione esistenti per la realizzazione di sorgenti XML-XSL (T3.1-S3).

Prodotti Previsti per la Prima Fase
  • T1.1-R3 rapporto contenente la descrizione di algoritmi per l'estrazione della struttura di una sorgente dati XML;

  • T2.1-R1 rapporto con la definizione del modello dei dati di riferimento;

  • T2.1-R3 rapporto contenente lo studio delle proprieta' dei link non tipati, e dei relativi vincoli, e sperimentazione per la descrizione di sorgenti Web HTML e XML;

  • T3.1-R1 rapporto contenente la descrizione del contesto metodologico di riferimento per il progetto e lo sviluppo di siti Web;

  • T3.1-R2 rapporto che descrive l'architettura dello strumento CASE per la produzione di sorgenti Web XML o HTML;

  • T3.1-S3 prototipo dello strumento per la produzione di siti con estensioni per la generazione di sorgenti dati XML-XSL;

Seconda Fase


In questa fase, per il Tema 1, l'algoritmo per l'analisi della struttura di una sorgente dati XML e la derivazione dei DTD mancanti definito nella fase precedente verra' implementato in un prototipo (T1.2-S3) che sara' sperimentato su alcuni casi reali.

Per il Tema 2, la seconda fase del lavoro affrontera' la definizione di un linguaggio di interrogazione per dati Web descritti secondo il modello di riferimento. Per cominciare, verra' definita la sintassi per le interrogazioni, sia utilizzando una sintassi testuale, che una equivalente sintassi grafica; si procedera' poi allo studio ed alla definizione della semantica del linguaggio (T2.2-R1). A questo fine, si studieranno estensioni della semantica per la gestione a tempo di esecuzione di inconsistenze tra la sorgente e lo schema (T2.2-R3). Sulla base di questi presupposti, verra' definita una prima architettura di uno o piu' prototipi dei linguaggi definiti (T2.2-R4).

Infine, per il Tema 3, nella seconda fase, verra' realizzato il prototipo dello strumento CASE per la produzione di sorgenti Web (T3.2-S1).

Prodotti Previsti per la Seconda Fase
  • T1.2-S3 prototipo per l'estrazione di uno schema da una sorgente dati XML;

  • T2.2-R1 rapporto con la definizione della sintassi e della semantica del linguaggio di interrogazione per sorgenti XML descritte secondo il modello di riferimento;

  • T2.2-R3 rapporto contenente un studio per la estensione del linguaggio di interrogazione di sorgenti XML per il rilevamento e la gestione di aggiornamenti dello schema a tempo di esecuzione;

  • T2.2-R4 rapporto contenente la definizione dell'architettura del prototipo del linguaggio definito;

  • T3.2-S1 prototipo dello strumento CASE per la produzione di sorgenti Web;

Terza Fase


Nel corso della terza fase verra' studiata l'estendibilita' delle tecniche messe a punto nel corso delle fasi precedenti del Tema 1 relativamente al riconoscimento di struttura in sorgenti XML al caso piu' generale di sorgenti HTML; quest'ultimo caso e' decisamente piu' complesso, in quanto nelle pagine HTML le informazioni non sono solitamente marcate da meta-informazioni come in XML; e' quindi necessario utilizzare tecniche sofisticate di analisi del testo per cercare di risalire alle similitudini strutturali di pagine in un sito (T1.3-R3).

Per il Tema 2, durante la terza fase iniziera' l'attivita di implementazione del prototipo del linguaggio di interrogazione definito nelle fasi precedenti (T2.3-S1). Nell'implementazione del prototipo, verra' affrontato il problema dell'accesso e dell'estrazione dei dati da sorgenti di dati semistrutturate esistenti su Web. L'aspetto dell'importazione di dati da sorgenti esterne sara' affrontato utilizzando tra l'altro le tecniche per l'analisi e la ricostruzione della struttura sviluppate nell'ambito del Tema 1.

Per quanto riguarda il Tema 2, nel corso della terza fase verra' progettata e realizzata una interfaccia grafica amichevole per lo strumento CASE realizzato nel corso della fase precedente (T3.3-S1).

Prodotti Previsti per la Terza Fase
  • T1.3-R2 rapporto contente la descrizione delle estensioni agli algoritmi per la analisi della struttura di sorgenti dati HTML;

  • T2.3-S1 prototipo del linguaggio di interrogazione per siti Web;

  • T3.3-S1 prototipo dell'interfaccia grafica amichevole per lo strumento CASE;

Quarta Fase


Nella fase finale del Tema 1, verra' realizzato un prototipo che implementa gli algoritmi sviluppati nella fase precedente per il riconoscimento di struttura in sorgenti HTML (T1.4-S3). Sviluppi della ricerca e applicabilita' dei risultati saranno valutati in un rapporto conclusivo (T1.4-R4).

La quarta fase del Tema 2 sara' prevalentemente dedicata all'ingegnerizzazione del prototipo del linguaggio di interrogazione sviluppato nella fase precedente (T2.4-S1). Il prototipo verra' inoltre sperimentato nella soluzione di problemi di interesse pratico. I risultati della sperimentazione saranno opportunamente documentati, cosi' come gli sviluppi della ricerca saranno valutati in un rapporto conclusivo (T2.4-R3).

Infine, nel corso della quarta fase del Tema 2 verra' prodotto un secondo prototipo dello strumento CASE sviluppato in precedenza, opportunamente integrato con la relativa interfaccia utente (T3.4-S1). Il prototipo sara' sperimentato e sottoposto ad una valutazione critica nell'ambito del rapporto finale di valutazione (T3.4-R5).

Prodotti Previsti per la Quarta Fase
  • T1.4-S3 prototipo software del sistema per il riconoscimento di struttura in sorgenti di dati HTML;;

  • T1.4-R4 rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati;

  • T2.4-S1 secondo prototipo del linguaggio di interrogazione;

  • T2.4-R3 rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.

  • T3.4-S1 secondo prototipo dello strumento CASE integrato con l'interfaccia utente;

  • T3.4-R5 rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.

Testo inglese

With respect to Theme 1, the main objective is the study of tools for inferring structure inside XML and HTML data sources. Since XML is partly typed (Well-Formed documents do not have an associated DTD, and links are not typed), important structural information in XML repositories might not be explicitly described (for example, the fact that a certain link, inside a given class of documents, leads to documents with a specific DTD). Thus it is important to design algorithms and to develop techniques to extract details about the structures of an XML data source, on the basis of a syntactic analysis of its instances. Moreover, the same techniques should be extended, as far as possible, to the more general -- and more difficult -- case of HTML, since a huge number of sites are currently formatted in HTML.

In the framework of Theme 2, the main objective of our research consists in defining a query system for XML and HTML data sources. The starting point for the description of these sources is the adoption of the reference data model described in model A of this proposal. Since (HTML and XML) links may have associated properties that can nicely be exploited in the query process, we aim at extending the reference model with constraints on links. Web information sources are autonomous: they can be modified, even at the intensional level, without that updates are notified to the query system. The query language should therefore be able to leverage on the available structural knowledge about the source, but, at the same time, it should also be able to to detect and manage inconsistencies, even at execution time.

Finally, in Theme 3, we aim at designing and developing a CASE tool for the production process (design and implementation) of Web data sources, inspired on the reference methodological framework defined in model A of this proposal. Both HTML and XML will be supported as target languages. In particular the tool will: 1) assist designers in the defining the three main components of a Web source (data structure, hypertext structure, and graphical layout); 2) it will automatically generate source code for the creation of the data source. For the generation of the data source we plan to use the Penelope language, suitable extended to support the generation of XML-XSL data sources.

The research program will be organized as follows:

First Phase


As a first step of Theme 1, in order to provide support also to the analysis of documents without DTDs, algorithms to analyze the structure of XML data sources, and to derive missing DTDs and relative links will be studied and designed (T1.1-R3). The proposed algorithms will aim at producing an intensional description (schema) of an input XML data source based on the primitives of the reference model defined in the framework of Theme 2.

With respect to Theme 2, based on the reference data model, we will study the specific features that differentiate the model from the classical notion of data model adopted in the field of databases. In this perspective, we shall investigate the possibility to describe properties of XML links, which may be untyped, by using integrity constraints. The model, extended along these lines, will be experimented in the description of HTML and XML data sources (T2.1-R3).

The starting point of Theme 3 is the reference methodological framework; based on that, the architecture of a CASE tool, conceived to assist designers in the various phases of site design and implementation, will be studied (T3.1-R2). The tool will be able to manage and automate data transformations as interactively specified by the user, starting from a conceptual scheme of the site, up to the definition of the hypertext structure, in order to automatically generate the source code for producing pages. Also, existing tools will be extended for the production of XML-XSL data sources (T3.1-S3).

Expected Products for the First Phase
  • T1.1-R3 report describing algorithms for extracting the structure of an XML data source;

  • T2.1-R1 report with the definition of the reference data model;

  • T2.1-R3 report containing a study of the properties of untyped links, and corresponding constraints, and experimentation for the description of HTML/XML Web data sources;

  • T3.1-R1 report containing the description of the reference methodological framework for the design and development of Web sites;

  • T3.1-R2 report describing the architecture of the CASE tool for producing XML/HTML Web sources;

  • T3.1-S3 prototype of the tool for producing sites with the extensions to the generation of XML-XSL data sources;

Second Phase


In the second phase of Theme 2, the algorithm for analyzing the structure of XML data sources and producing missing DTDs defined in the previous phase will be implemented in a working prototype (T1.2-S3), and it will be experimented in some real-life cases.

At the same time, the second phase of Theme 2 will concentrate on the definition of a query language for Web data described by the reference data model. First, the syntax of the language will be defined, and then its semantics (T2.2-R1). The semantics of the language will be based on original techniques, specifically tailored for the management of irregularities. Extensions for managing inconsistencies between the data source and the schema will be studied (T2.2-R3). On these bases, a first architecture of the language prototype will be defined (T2.2-R4).

With respect to Theme 3, during the second phase the prototype of the CASE tool for the production of Web data sources will be implemented (T3.2-S1).

Expected Products for the Second Phase
  • T1.2-S3 prototype for the extraction of a schema from an XML data source;

  • T2.2-R1 report with the definition of syntax and semantics of one or more query languages for XML sources described by means of the reference data model;

  • T2.2-R3 report describing extensions to the query languages for detecting and managing schema updates at execution time;

  • T2.2-R4 report describing the architecture of one or more prototypes of the languages;

  • T3.2-S1 prototype of the CASE tool for the production of Web data sources;

Third Phase


In the third phase of Theme 1, we will investigate the possibility of extending techniques and algorithms developed in the previous semesters to the more general case of HTML data sources. It is worth noting that this case is more complex, since in HTML pages information is not marked by meta-information as in XML; then it is necessary to develop sophisticated analysis techniques to derive structural similarities between pages (T1.3-R3).

Also, the implementation of the query language defined in the previous phases of Theme 2 will be attacked (T2.3-S1). During the implementation of the prototypes, the issue of accessing external, existing Web data sources will be faced (T2.3-R4). The attention will be on both algorithmic aspects related to accessing external data, also using the techniques for structure analysis and derivation developed in the framework of Theme 1.

In Theme 3, a user-friendly graphical interface for the CASE tool implemented in the previous phase will be developed (T3.3-S1).

Expected Products for the Third Phase
  • T1.3-R2 report containing the description of the extensions to the algorithms for the analysis of the structure of HTML data sources;

  • T2.3-S1 prototype of the query language for Web sites

  • T3.3-S1 prototype of the user-friendly graphical interface for the CASE tool;

Fourth Phase


In the final phase of Theme 1, a prototype implementing the algorithms developed in the previous phase for deriving the structure of HTML sources will be implemented (T1.4-S3). Further research and applicability of results will be evaluated in a conclusive report (T1.4-R4).

At the same time, the fourth phase of Theme 2 will be dedicated to engineer the prototype of the query language developed in the previous phases (T2.4-S1). The prototype will be experimented on real-life examples. Results of this experiments, as well as further research directions will be reported in a conclusive report (T2.4-R3).

Finally, for what concerns Theme 3, a second prototype of the CASE tool, integrated with the relative user interface will be implemented (T3.4-S1). Also in this case a conclusive report will report on the applicability of the research and highlight further research(T3.4-R5).

Expected Products for the Fourth Phase
  • T1.4-S3 prototype of the sysyem for the derivation of structure in HTML data sources;;

  • T1.4-R4 conclusive report: further research and applicability of results.

  • T2.4-S1 second prototype of the query language;

  • T2.4-R3 conclusive report: further research and applicability of results

  • T3.4-S1 second prototype of the CASE tool integrated with the user interface;

  • T3.4-R5 conclusive report: further research and applicability of results.


2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  1998Laboratorio di basi di dati, costituito da un server e sei stazioni di lavoro, utilizzato per lo sviluppo dei prototipi. Esso e' parte della rete di dipartimento e ne utilizza alcuni servizi infrastrutturali.  Database laboratory, composed of a server and six workstations, to be used for the development of prototypes. It is part of the department network and it takes advantage of some of its services. 
2.     
3.     
4.     
5.     


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 30  15.494  Integrazione del laboratorio di basi di dati, con acquisizione di ulteriori stazioni di lavoro e periferiche. Acquisto di libri.  Workstations and peripherals for the extension of the database laboratory. Books 
Grandi Attrezzature        
Materiale di consumo e funzionamento 2.582  Materiale vario per laboratorio e uffico.  Paper, toners, diskettes, CDs 
Spese per calcolo ed elaborazione dati        
Personale a contratto 60  30.987  Personale da coinvolgere nella progettazione dei prototipi  People to be involved in the design activity 
Servizi esterni 20  10.329  Sviluppo di software  Software development 
Missioni 50  25.823  Riunioni del progetto e partecipazione a convegni nazionali ed internazionali  Participation to project meetings and to national and international conferences. 
Altro 15  7.747  Spese postali, telefoniche e spese generali di dipartimento.  Phone, mail and other general departmental expenses 


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 180  92.962 
 
Costo minimo per garantire la possibilità di verifica dei risultati 144  74.370 
 
Fondi disponibili (RD) 54  27.889 
 
Fondi acquisibili (RA) 0   
 
Cofinanziamento richiesto al MURST 126  65.074 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università 1999   40  20.658    finanziamenti di ateneo per la ricerca e per i laboratori 
Dipartimento          
MURST (ex 40%)          
CNR          
Unione Europea          
Altro 1998   14  7.230    utili di contratti conto terzi 
TOTAL   54  27.889     

4.1.1 Altro

Contratto consulenza Istituto Credito Sportivo 2 milioni
Contratto formazione funzionari MURST 12 milioni

4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL        

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 01/04/1999 00:10:59