MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9909A77532_003


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web

Testo inglese

Data-X: Management, Transformation and Exchange of Data in a Web Environment

1.4 Coordinatore Scientifico del Programma di Ricerca

ATZENI PAOLO  
(cognome) (nome)  
Università degli Studi ROMA TRE Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E AUTOMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


atzeni@dia.uniroma3.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

CELENTANO AUGUSTO  
(cognome) (nome)  


Professore ordinario 07/03/1950 CLNGST50C07F205B
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi di VENEZIA Facoltà di SCIENZE MATEMATICHE FISICHE e NATURALI
(università) (facoltà)
K05A Dipartimento di INFORMATICA
(settore scient.discipl.) (Dipartimento/Istituto)


041/2908425 041/2908419 auce@unive.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
XML ; WORD WIDE WEB ; PROTOCOLLI ; MODELLI DI DATI ; SCAMBIO DI DATI ; DATI SEMISTRUTTURATI ; STANDARD

Testo inglese
XML ; WORLD WIDE WEB ; PROTOCOLS ; DATA MODELS ; DATA EXCHANGE ; SEMISTRUCUTRED INFORMATION ; STANDARD


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Augusto Celentano si è laureato nel 1973 in Ingegneria Elettronica al Politecnico di Milano. Ordinario di Sistemi per l'Elaborazione delle Informazioni presso l'Università Ca' Foscari di Venezia, è Direttore del Dipartimento di Informatica e delegato del Rettore per il Sistema Informatico di Ateneo.
E' stato ricercatore e professore associato presso il Politecnico di Milano, professore associato presso l'Università degli Studi di Brescia, professore straordinario presso il Politecnico di Bari.
Svolge attività didattica nell'area dei sistemi informativi e dei sistemi operativi.
Svolge attività di ricerca nelle aree dei sistemi informativi multimediali, sistemi informativi su Internet/Intranet e sistemi per la formazione a distanza. In passato si è occupato di sistemi informativi per ufficio, sistemi di gestione di documenti, ingegneria del software e linguaggi di programmazione. In queste aree ha pubblicato più di quaranta lavori su riviste e atti di congressi internazionali.
E' stato coordinatore scientifico dell'area "Advanced Information Sistems Technology" presso il Cefriel – Politecnico di Milano, Consorzio per la Ricerca e la Formazione in Tecnologia dell'Informazione. Ha svolto attività di coordinamento scientifico e consulenza scientifica nell'ambito delle iniziative Esprit, Delta e IV Programma Quadro per la Tecnologia dell'Informazione della Comunità Europea.

Testo inglese

Augusto Celentano received a master degree in Electronic Engineering from the Technical University of Milan in 1973. He is full Professor of Computer Science at Università Ca' Foscari in Venice, chairman of the Department of Computer Science, and Rector's delegate for the University Information System.
Before joining the University of Venice he was at Technical University of Milan, at University of Brescia and at Technical University of Bari.
He teaches information systems and operating systems courses.
His research interests are multimedia information systems, Internet/Intranet information systems, and open and distance learning. He worked also in the areas of office information systems, document management systems, software engineering and programming languages. He is co-author of more than 40 papers in international journal and conference proceedings.
Augusto Celentano has coordinated the "Advanced Information Technology Systems" area of Cefriel, a Consortium for Research and Education in Information Technology, participated by the Technical University of Milan. He has also worked as a scientific coordinator and as a scientific consultant in many European Community projects: Esprit, Delta, IV Framework Programme in Information Technology.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. ORSINI R., FURANO F., CELENTANO A., "Museum-on-demand: dynamic management of resources in World Wide Web museums" , Rivista: Hypertextes et Hypermedias , Volume: 1 (2-3-4) , pp.: 115-124 , (1997) .
  2. CELENTANO A., FUGINI M. G., POZZI S., "Knowledge-based document retrieval in office environments: the Kabiria system" , Rivista: ACM Transactions on Information Systems , Volume: 13 (3) , pp.: 237-268 , (1995) .
  3. CELENTANO A., "Query and retrieval in multimedia databases: a new perspective" , Rivista: Proc. SDAIR 95, Symp. on Document Analysis and Information Retrieval, Las Vegas , (1995) .
  4. POZZI S., CELENTANO A., "Knowledge-based document filing and retrieval in the Kabiria retrieval system" , Rivista: IEEE Expert , Volume: October , pp.: 34-45 , (1993) .
  5. POZZI S., SALEMME L., CELENTANO A., "ALIVE: a distributed live-link system" , Rivista: Electronic Publishing - Origin, Dissemination and Design , Volume: 5 (3) , pp.: 131-142 , (1992) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  CELENTANO  AUGUSTO  INFORMATICA  Prof. ordinario  K05A  3  3
2  DALLA LIBERA  FRANCESCO  INFORMATICA  Prof. associato  K05B  2  2
3  ORLANDO  SALVATORE  INFORMATICA  Ricercatore  K05B  2  2
4  ORSINI  RENZO  INFORMATICA  Prof. associato  K05B  3  3
5  RONCATO  ALESSANDRO  INFORMATICA  Ricercatore  K05B  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. PITTARELLO  FABIO  INFORMATICA  2000 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. Da definire  10 
2. Da definire  10 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. MARCHIORI  MASSIMO  W3C - MIT  Dottore di ricerca 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Protocolli e strumenti per scambio di dati tra sorgenti e applicazioni

Testo inglese

Protocols and tools for data exchange between sources and applications

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

Il problema dello scambio di dati in ambito WWW ha ricevuto molta attenzione soprattutto in conseguenza della diffusione di XML come standard per la descrizione delle informazioni proposto dal Consorzio W3 (W3C 1998). La assoluta flessibilità e generalità del meccanismo di markup di XML (nonché l'indipendenza dalla piattaforma operativa) consente di utilizzarlo in molti contesti come linguaggio per descrivere dati di tipo generale, non solo documenti per la pubblicazione su WWW.
Manca tuttavia uno strumento o un livello linguistico che possano esprimere il "tipo" e il significato dei dati stessi, poiché il meccanismo di markup di XML ne esprime solo la struttura logico-formale. Allo stato attuale XML non consente infatti di definire né la semantica né i formati interni, rispetto alle applicazioni, dei dati che descrive. Il DTD (Document Type Declaration) è di aiuto limitato per il primo punto, poiché si limita a descrivere uno schema strutturale di composizione tra le parti del documento; il secondo punto è sostanzialmente escluso dalla natura testuale dei dati descritti in modo indipendente dalla piattaforma (anche se questi possono rappresentare codifiche alfanumeriche di dati multimediali in formati standard).
Quando si scambiano dati tra sorgenti eterogenee o tra sorgenti e applicazioni attraverso un meccanismo di interscambio basato su XML tale mancanza può limitare la possibilità di verificare la coerenza delle informazioni durante lo scambio. Ciò riguarda sia l'aspetto formale (tipo) sia quello sostanziale (significato).
Numerose sono le aree applicative in cui il problema è particolarmente sentito; tra esse risaltano oggi quelle collegate alle tematiche dell'electronic business, in particolare per la possibilità di definire (o ridefinire) standard Open EDI su un livello XML (Ontology 1999).

Le basi del presente progetto di ricerca si fondano su tre aree:
1. estrazione di dati da sorgenti eterogenee;
2. protocolli e formati per lo scambio di informazioni tra applicazioni;
3. tecnologie Object Oriented per la descrizione dei dati.

1. Estrazione di dati da sorgenti eterogenee

Il problema dello scambio di dati tra sorgenti e applicazioni presenta molti punti in comune con il problema dell'estrazione di informazioni da sorgenti di dati, spesso non strutturate o semi-strutturate. La differenza principale tra le due aree è che nel primo caso i dati estratti non sono direttamente fruiti dall'utente, ma possono costituire una nuova sorgente di dati, o devono essere immessi in un'altra sorgente o in un'applicazione. La somiglianza tra i due casi rappresenta tuttavia una base di partenza significativa.
L'estrazione di dati da sorgenti semi-strutturate e il riconoscimento della struttura all'interno di sorgenti è stato studiato, tra gli altri, da (Hammer et al. 1997), (Atzeni et al. 1997), (Adelberg 1998), (Mecca et al. 1998). Linguaggi e tecniche di interrogazione sono stati studiati e proposti da (Mendelzon et al. 1996), (Abiteboul et al. 1997), (Fernandez et al. 1998), (Florescu et al. 1998). Il workshop QL'98 (QL 1998) costituisce una fonte di riferimento per l'interrogazione di documenti XML.

2. Protocolli e formati per lo scambio di informazioni tra applicazioni

Sono allo studio svariate proposte per associare allo scambio di dati via XML la definizione di protocolli e di meccanismi di interfacciamento attraverso cui trasmettere informazioni sulla natura dei dati scambiati. XML è proposto come metodo sintattico per descrivere interfacce in un ambiente di oggetti distribuiti. Esistono proposte, come WebBroker (Tigue 1998) o WIDL (Wales 1999), che intendono usare solo tecnologie Web, ovvero XML e HTTP per rappresentare ed implementare, rispettivamente, chiamate di metodi remoti e messaggi di ritorno. In questo modello di oggetti distribuiti i componenti software diventano risorse HTTP indirizzabili tramite URL, mentre i metadati che descrivono le interfacce delle componenti stesse sono documenti XML.
Un esempio di settore applicativo in cui il problema viene affrontato con molta attenzione è l' electronic business, che da tempo ha definito una serie di standard per l'interscambio di informazioni machine-to-machine e application-to-application al fine di automatizzare alcune relazioni commerciali/finanziarie tra aziende (ad esempio tra impresa e banca). Questi standard (EDI) non sono riusciti ad imporsi compiutamente a livello di piccola e media industria a causa degli elevati costi organizzativi e tecnici che le soluzioni imponevano. Gli attuali standard WWW, HTTP, HTML e XML possono fornire alle imprese uno standard "de facto" per un electronic data interchange che sia aperto e effettivamente accessibile a tutti. In particolare l'uso di XML come linguaggio di rappresentazione dei dati di interscambio dovrebbe fornire al vecchio mondo dell'EDI la spinta in più per raggiungere milioni di nuovi utenti (Bryan 1998).
Ad oggi alcuni protocolli sono stati definiti sfruttando queste tecnologie standardizzate, sia per particolari classi di transazioni (mercati e istituzioni finanziarie) sia per generiche situazioni commerciali. La definizione ha comportato l'individuazione della struttura di una classe di messaggi di interscambio attraverso la definizione di opportuni documenti XML/DTD. Tra i protocolli sviluppati secondo questo approccio ricordiamo OFX (OFX 1998), FIXML (FIXML 1998) e OTP (OTP 1998).

3. Tecnologie Object Oriented per la descrizione dei dati

E' ben visibile l'orientamento ad estendere la tecnologia Object Oriented (e le relative metodologie di supporto) ai dati XML sia per quanto riguarda la caratterizzazione dei dati descritti, sia per quanto riguarda la progettazione delle applicazioni. Sono stati studiati modelli ed architetture per applicazioni object-oriented su Web (Rees et al. 1995), (Ingham 1997), (Gellersen e Gaedke 1999), (Manola 1999); l'aggiunta di aspetti procedurali basati su paradigmi Object-Oriented a XML (Apparao et al. 1998), (Stevahn 1998); l'integrazione di XML con modelli di dati orientati ad oggetti per la descrizione di documenti che rappresentano dati, come XML-Data (Layman et al. 1998) e Schema for Object-Oriented XML (Fuchs et al. 1998); modelli di descrizione di metadati con un approccio basato su frames o oggetti per documenti XML (Dempsey 1996), (Guha 1997), (Lassila and Swick 1999), (Brickley and Guha 1999).

L'Unità di ricerca dell'Università di Venezia ha maturato negli ultimi anni una varietà di esperienze su sistemi informativi in ambito WWW in cui lo scambio di dati tra sorgenti e applicazioni ha presentato aspetti particolari, e sulle problematiche dello scambio di informazioni in sistemi di commercio elettronico (Dalla Libera e De Min 1997).
E' stato studiato il problema dell'inserimento di dati estratti da basi di dati relazionali in documenti Web, ed è stato definito un modello generale e una serie di strumenti per il caso dei "musei virtuali" (Furano et al. 1997). Meccanismi per la ricerca e l'estrazione di dati su tale modello sono descritti in (Furano e Orsini 1999).
L'unità ha inoltre acquisito esperienza su modelli e linguaggi per basi di dati orientati ad oggetti, in particolare per linguaggi con un ricco sistema di tipi e forte controllo statico (Albano et al. 1995).
La trasformazione di documenti XML è alla base di un sistema di interfacciamento di siti Web con sistemi di presentazione basati sulla realtà virtuale (Celentano 1998), (Celentano 1999), (Celentano et al. 1999).

Testo inglese

Data exchange in WWW has received a lot of attention due to the rapid diffusion of the proposal of XML as standard for information description by the W3 Consortium (W3C 1998). The complete flexibility and generality of the XML markup mechanism as well as its platform-independence, allows its use in many contexts as a language for describing data of any kind, not only for documents to be published on WWW.
What is missing is either a tool or a linguistic level to denote the meaning and type of data, since the XML markup mechanism only denotes the logic structure of data. Currently, XML allows neither description of the semantics nor that of the internal representation of data, with respect to applications. The DTD (Document Type Declaration) is of little help to address semantics issues, because it only describes the structural scheme of composition of the parts of the document. The internal representation is excluded due to the textual (and platform-idenpendet) nature of the data described (even if they could represent in a standard format an alphanumeric coding of multimedia data).
When exchanging data between different data sources, or between data sources and applications by using an XML based mechanism, this omission may limit the possibility of verifying data coherency. This involves both the formalization aspects (type) and the semantics aspects (meaning). This problem is a big roadblock in many application areas; among them, the electronic commerce area, because of the possibility of defining (or redefining) standards like Open EDI in XML (Ontology 1999).

This research project addresses three areas:
1. data extraction from heterogeneous sources;
2. protocols and data formats for the exchange of informations among applications;
3. object-oriented technologies for data description.

1. Data extraction from heterogeneous sources

The problem of information exchange between data sources and applications is somewhat similar to the problem of information extraction from structured or semi-structured data sources. The main difference between the two areas is that in the former case data are not directly exploited by users, but are used as new data source, or are to be transferred to a data base, or an application. The similarities between the two areas represent, however, a significant common base, from which our research can start. Data extraction from semi-structured sources, and structure recognition in such sources has been addressed by, among others, (Hammer et al. 1997), (Atzeni et al. 1997), (Adelberg 1998), (Mecca et al. 1998). Query languages and strategies have been studied and proposed in (Mendelzon et al. 1996), (Abiteboul et al. 1997), (Fernandez et al. 1998), (Florescu et al. 1998). An important source for the problem of querying XML documents can be found in the works of the QL'98 workshop (QL 1998).

2. Protocols and data formats for the exchange of informations among applications

Several proposals have been presented about the use of XML to define protocols and interfacing mechanisms, through which information on the exchanged data can be transmitted as well. XML has been proposed as a syntactic method to describe interfaces within a distributed object environment. There are some proposals, such as WebBroker (Tigue 1998) or WIDL (Wales 1999), which are committed to the use of Web-based technologies, i.e. XML and HTTP, to represent and implement, respectively, remote method calls and return messages. In this model of distributed objects, the software components are HTTP resources that are addressable through URLs, while metadata that describe the component interfaces are XML documents as well.
The electronic commerce is a crucial applicative area in which the problem is addressed with particular attention. In such area a well extablished set of standards exists to exchange data in between systems or applications with the scope of automating some important commercial or financial relations among organizations (e.g. banks and their clients). Such standards (EDI) found many obstacles to their widespread adoption in small to medium organizations, mostly dues the complexities and costs of the solution. The current, largely diffused standards WWW, HTTP, HTML e XML can be used as foundation of an open and widely accessible electronic data exchange standard. In particular, the use of XML as language for the representation of exchange data should push "old" EDI techniques and applications to a much wider acceptance and diffusion (Bryan 1998). Currently a few protocols have been defined by using these standards, both for particular kinds of economic transactions (markets and financial institutions), and for generic commercial use. A set of XML/DTD has been defined to describe the structure of a set of data exchange messages in this area. This approach is taken, for instance, for OFX (OFX 1998), FIXML (FIXML 1998) and OTP (OTP 1998).

3. Object-oriented technologies for data description

Nowadays there is a great effort toward the application of the Object Oriented technologies, along with the relative methodologies, to XML data. These technologies are exploited both for data characterization, as well as for designing applications. In particular, investigations are made in several directions: models and architectures for object-oriented applications based on the Web (Rees et al. 1995), (Ingham 1997), (Gellersen e Gaedke 1999), (Manola 1999); the addition of procedural aspects, based upon object-oriented paradigms, to XML data (Apparao et al. 1998), (Stevahn 1998); the integration of XML with object-oriented data models to describe documents that represent data, such as XML-Data (Layman et al. 1998) and Schema for Object-Oriented XML (Fuchs et al. 1998); models for metadata description with an approach based upon frames or objects for XML documents (Dempsey 1996), (Guha 1997), (Lassila and Swick 1999), (Brickley and Guha 1999).

The research team at the University of Venice has been involved in a variety
of experiences on WWW information systems, where data exchange between data sources and applications presents peculiar aspects, and in problems of informations exchange in electronic commerce systems (Dalla Libera e De Min 1997).
The problem of inserting data extracted from relational databases into Web document has been studied. A general model and a set of tools have been defined for the spacial case of "virtual museums" (Furano et al. 1997).
Mechanisms for finding and retrieving data in such a model are described in (Furano e Orsini 1999).
In addition, the team conducted researches on models and languages for object-oriented databases, in particular for languages with a rich type system, thus allowing a strong static type control to be applied (Albano et al. 1995).
Transformation of XML documents is at the core of a system for interfacing
Web sites to presentation systems based on virtual reality (Celentano 1998), (Celentano 1999), (Celentano et al. 1999).

2.2.a Riferimenti bibliografici

(Abiteboul et al., 1997) S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. L. Weiner: "The lorel query language for semistructured data", Journal of Digital Library, 1, 1997
(Adelberg, 1998) B. Adelberg. "NoDoSE a tool for semi-automatically extracting structured and semistructured data from text documents". In ACM SIGMOD, 1998
(Albano et al., 1995) Albano A., G. Ghelli, R. Orsini, "Fibonacci: A Programming Language for Object Databases" The VLDB Journal, 4(3), 1995, pp.403-444.
(Apparao et al. 1998) Apparao V., B. Eich, R. Guha, N. Ranjan, "Action Sheets: A Modular Way of Defining Behavior for XML and HTML", W3C Note AS-19980619, (www.w3.org/TR/NOTE-AS).
(Atzeni et al., 1997) P.Atzeni, G.Mecca, P.Merialdo "To Weave the Web". In VLDB'97, 1997
(Brickley and Guha 1999) Brickley D., R.V. Guha, "Resource Description Framework (RDF) Schema Specification, W3C Proposed Recommendation PR-19990303, (www.w3c.org/TR/PR-rdf-schema).
(Bryan 1998) M. Bryan, "Guidelines for using XML for Electronic Data Interchange", http://www.geocities.com/WallStreet/Floor/5815/guide.htm
(Celentano 1998) A. Celentano, "Rappresentazione di informazioni complesse attraverso la metafora dei mondi virtuali", InterData Tech. Rep. T2-R08, 1998
(Celentano 1999) A. Celentano, "Virtual Worlds as Metaphors for Web Sites Exploration: Are They Effective?", Rapporto Tecnico Università di Venezia CS-99-6, 1996, submitted for publication.
(Celentano et al. 1999) A. Celentano, A. Culatti, A. Longo, "Virtual reality as a metaphore for representing Web sites", InterData Tech. Rep. T2-R19, 1999
(Dalla Libera e DeMin 1997), F.Dalla Libera, P.De Min, "Nuovi Modelli di Commercio Elettronico", TIF '97 - Tecnologie Informatiche e Lavoro, Ottobre 1997.
(Dempsey 1996), Dempsey L., S.L.Weibel, "'The Warwick Metadata Workship: A Framework for the Deployment of Resource Description", D-Lib Magazine, July/August 1996, (www.dlib.org/dlib/july96/07weibel.html)
(Fernandez et al., 1998) M.Fernandez, D.Florescu, J.Kang, A.Levy, D.Suciu. "Catching the Boat with Strudel: Experiences with aWeb-Site Management System". In ACM SIGMOD'98, 1998
(FIXML 1998) "FIXML, A Markup Language for the FIX Application Message Layer", http://www.fixprotocol.org
(Florescu et al., 1998) D.Florescu, A.Levy, "A.Mendelzon. Database techiques for the world-wide web: a survey", ACM SIGMOD Record, 27(3), Sept. 1998.
(Fuchs et al. 1998), Fuchs M., M. Maloney, A. Milowski, "Schema for Object-Oriented XML", W3C Note AS-19980930, (//www.w3.org/TR/NOTE-SOX).
(Furano et al. 1997) F. Furano, R. Orsini, A. Celentano, Museum On Demand: dynamic management of resources in World Wide Web museums, Hypertexts and Hypermedias, Vol 1, N.2-3-4/1997.
(Furano e Orsini 1999) F. Furano e R. Orsini, Mecanismi di ricerca per il modello "Museum-On-Demand", Rapporto Tecnico Università di Venezia CS-99-5, 1999.
(Gellersen e Gaedke 1999) H.W. Gellersen M. Gaedke, Object Oriented Web Application Development, Internet Computing, Jan-Feb 1999
(Guha 1997), Guha R.V., T. Bray, "Meta Content Framework Using XML", W3C Note, (www.w3.org/TR/NOTE-MCF-XML-970624).
(Hammer et al., 1997) J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo. "Extracting semistructured information from the Web". In Proc. of the Workshop on the Management of Semistructured Data, 1997
(Ingham 1997) D. B. Ingham , "W3Objects: A Distributed Object-Oriented Web Server", Object-Oriented Web Servers and Data Modeling Workshop, 6th Intl. WWW Conf., Santa Clara, California, USA, 7-11 April 1997.
(Layman et al. 1998), Layman A. et al., "XML-Data", W3C Note AS-19980501, (www.w3.org/TR/NOTE-XML-data).
(Lassila and Swick 1999) Lassila O., R.R. Swick, "Resource Description Framework (RDF) Model and Syntax Specification", W3C Recommendation REC-19990222 (www.w3c.org/REC-rdf-syntax).
(Manola 1999) F. Manola, "Technologies for a Web Object Model", Internet Computing, Jan-Feb 1999
(Mecca et al., 1998) G.Mecca, P. Atzeni, A. Masci, P.Merialdo, G. Sindoni, "The Araneus Web-Base Management System".Proceedings of SIGMOD, 1998
(Mendelzon et al., 1996) A.Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.
(OFX 1998) "Open Financial Exchange", http://www.ofx.net
(Ontology 1999) "The Need for Shared Ontology", http://www.ontology.org, 1999
(OTP 1998) "Open TRading Protocol Specification 0.9.9", http://www.otp.org
(QL 1998) Proceedings of the W3C QL'98 Workshop, http://www.w3.org/Tands/QL/QL98/
(Rees et al. 1995), Rees O., N. Edwards, M. Madsen, M. Beasley, A. McClenaghan, A Web of Distributed Objects, 4th Intl. Web Conference, Dec. 95 (www.ansa.co.uk/ANSA/ISF/wdistobj/Overview.html).
(Stevahn 1998), Stevahn R., "Adding Style and Behavior to XML with a Dash of Spice", W3C Note AS-19980123, (www.w3.org/TR/NOTE-spice).
(Tigue 1998) J. Tigue e J. Lavinder, "WebBroker: Distributed Object Communication on the Web", W3C Note, World Wide Web Consortium, 1998
(W3C 1998) "Extensible Markup Language (XML) 1.0", W3C Recommendation 10-February-1998, http://www.w3.org/TR/1998/REC-xml-19980210
(Wales 1999) M. Wales, "WIDL: Interface Definition for the Web", Internet Computing, Jan-Feb 1999

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'unita' di ricerca dell'Università di Venezia è coinvolta nel Tema 3 del progetto: "Produzione e Scambio di Sorgenti di Dati in Ambiente Web".
Il programma di ricerca ha come obiettivo la definizione di protocolli e strumenti che supportino lo scambio di dati tra sorgenti e applicazioni.
L'unità di ricerca dell'Università di Venezia intende studiare la possibilità di utilizzare XML come linguaggio per definire protocolli di interscambio dati tra sorgenti e applicazioni, considerando in particolare i punti di seguito dettagliati.

1. La pubblicazione di dati da database verso Web. Spesso, infatti, il materiale che forma i documenti pubblicati su Web è, almeno in parte, estratto da sorgenti di dati strutturate, come le basi di dati. Attualmente esistono molti strumenti, anche commerciali, che facilitano l'estrazione di dati da una base di dati per la costruzione dinamica di pagine HTML. Questi strumenti sono pensati per HTML, quasi sempre ad-hoc, legati ad un particolare sistema o sorgente di dati, e molto spesso non forniscono al progettista del sito strumenti o metodologie generali da impiegare in questo processo di trasformazione. Si affronterà il problema di costruire un modello generale applicabile a più casi di trasformazione, e si studieranno metodologie e strumenti per:

a) definire un "mapping" fra lo schema logico e le viste esterne di una base di dati e XML, in modo da facilitare il compito del progettista delle applicazioni che devono effettuare il trasferimento dei dati;

b) descrivere in XML le interrogazioni da effettuare per estrarre i dati e convertirli in XML;

c) effettuare l'interrogazione e produrre i relativi documenti XML.

In maniera simmetrica, si affronterà il problema inverso di "mappare" documenti XML in un insieme strutturato di dati (come una base di dati), studiando metodologie e strumenti che facilitino o automatizzino tale operazione, al fine di ottenere un completo interscambio fra i due ambienti.

2. La trasformazione di dati che devono essere scambiati tra applicazioni diverse (o tra sorgenti di dati e applicazioni) usando XML come linguaggio di comunicazione. Si hanno due casi:

a) se le applicazioni utilizzano XML come linguaggio "nativo" per descrivere i propri dati, esse devono prevedere, salvo casi banali, DTD di riferimento. Si definiranno allora criteri di compatibilità fra le strutture definite da DTD differenti, e conseguentemente schemi di traduzione tra i documenti, con l'obiettivo di poter generazione in modo semi-automatico strumenti che effettuino la traduzione.

b) se le applicazioni non operano direttamente su documenti XML, si studierà la possibilità di definire un mapping tra i più comuni sistemi di tipi dei linguaggi di programmazione e XML. In questo modo i dati espressi in linguaggio XML potranno essere visti come "rappresentazioni esterne" dei dati generati o consumati dalle applicazioni, riconducendo quindi il problema al caso precedente.

3) L'identificazione delle proprietà che caratterizzano le informazioni scambiate in funzione di tipologie o classi di applicazioni allo scopo di realizzare strumenti per definire DTD specializzati, ad esempio per applicazioni di electronic business, dove il problema della standardizzazione è particolarmente critico.

A questo scopo si prenderanno in esame classi di dati "ben formati" per determinate applicazioni commerciali e su queste classi si applicaheranno meccanismi di classificazione, astrazione e rappresentazione utili ad una loro organizzazione secondo gli standard XML/DTD.
Si studieranno le proprietà di classi di documenti DTD per le medesime classi di applicazioni al fine di progettare strumenti per la definizione, il mantenimento e l'accesso a repository standard di definizioni di dati di interscambio commerciale.

4) la possibilità di definire attraverso XML non solo le proprietà statiche di un insieme di dati, ma anche le proprietà relative all'interfacciamento tra sorgenti e applicazioni. Verrà valutato l'uso di XML per rappresentare metadati per migliorarne l'interoperabilità tra sorgenti di dati semistrutturate espresse in XML, con componenti software sviluppati in accordo al modello degli oggetti distribuiti. In tali modelli, invocazioni di metodi remoti richiedono la generazione di stub e skeleton a partire da una specifica di interfaccia espressa in un certo Interface Definition Language (IDL). Stub e skeleton sono elementi software invocati, rispettivamente, dal cliente e dal servente per realizzare l'invocazione "trasparente" di un metodo remoto. Nel progetto studieremo le problematiche relative al tipo di metadato da associare ad un documento XML per realizzare l'interoperabilità con un sistema di oggetti distribuiti, ovvero per l'automatizzazione del mapping tra i dati contenuti nel documento, e quelli definiti tramite lo specifico IDL per descrivere l'interfaccia di un certo metodo remoto.

Il progetto sarà articolato in quattro fasi semestrali.

1. Prima fase

Durante la prima fase l'attività partirà dal consolidamento dello stato dell'arte sull'interfacciamento tra sorgenti e applicazioni, considerando sia l'evoluzione degli standard W3C (XML, XSL, XLL e HTTP-NG), sia le proposte che provengono dal mondo industriale. Si affronterà quindi l'analisi dei requisiti di interfacciamento tra sorgenti eterogenee e tra sorgenti e applicazioni con riferimento ad alcuni casi di studio selezionati: realizzazione di viste parziali su database relazionali, verifica di compatibilità tra documenti XML definiti da DTD differenti. Si analizzeranno inoltre i requisiti che alcuni settori applicativi pongono sullo scambio di informazioni dal punto di vista della definizione di standard aperti.
Questa fase si baserà sul contesto metodologico di riferimento definito per l'intero progetto.

Al termine della prima fase saranno rilasciati i seguenti prodotti:

T3.1-R5: rapporto sullo stato dell'arte e sull'analisi dei requisiti nell'interfacciamento fra sorgenti e applicazioni con XML e strumenti collegati

2. Seconda fase

La seconda fase comporterà due attività: a seguito dell'analisi condotta nella prima fase, si proporrà un modello per la definizione in XML di dati provenienti da sorgenti strutturate, e si realizzerà un prototipo sperimentale. In particolare, verranno studiati meccanismi per rappresentare schemi di basi di dati e viste e interrogazioni da basi di dati. Si inizierà inoltre lo studio di un modello volto a consentire la definizione in XML di interfacce tra applicazioni (o tra sorgenti di dati e applicazioni) che siano in grado di specificare proprietà formali (ad es. il tipo) e semantiche (riferite ad ontologie dipendenti dall'ambito applicativo), e sarà prodotto un primo prototipo sperimentale.

Alla fine della seconda fase saranno rilasciati i seguenti prodotti:

T3.2-S5: prototipo per la definizione in XML di dati provenienti da sorgenti strutturate;
T3.2-R6: rapporto sul modello di interfaccia per lo scambio di dati basato su XML.

3. Terza fase

La terza fase considererà aspetti di integrazione e generalizzazione delle soluzioni modellate e sperimentate nelle due fasi precedenti: si procederà alla realizzazione di un sistema prototipale per l'interfacciamento di sorgenti e applicazioni con l'obiettivo di scambiare dati effettuando verifiche di coerenza e trasformazioni di struttura per classi di applicazioni omogenee.

Alla fine della terza fase saranno rilasciati i seguenti prodotti:

T3.3-S4 prototipo di sistema di scambio dati XML tra sorgenti e applicazioni.

4. Quarta fase

Nella fase finale del progetto il modello e il relativo prototipo saranno applicati ad un caso non banale, affrontando il problema della mantenibilità di un insieme di sorgenti e applicazioni che possono richiedere periodiche revisioni negli schemi dei dati scambiati.

Alla fine della quarta fase saranno rilasciati i seguenti prodotti:

T3.4-S4 secondo prototipo dello strumento per lo scambio di dati;
T3.4-R5 rapporto conclusivo: sviluppi futuri della ricerca e applicabilità dei risultati (in collaborazione con le unità di ricerca coinvolte sul Tema 3 del progetto).

Testo inglese

The research team at the University of Venice is involved in the third theme of the project : "Production and exchange of data sources in the Web environment". The goal of the resarch proposed is the definition of protocols and tools to support data exchange among data sources and applications.
The research team at the University of Venice will study the possibility of using XML as language for the definition of data exchanging protocols among data sources and applications, by considering, in particular, the following issues.

1. The publication on Web of data extracted from data bases. In fact, frequently material contained in Web documents is extracted from structured data sources, like relational or object-oriented databases. Many tools exists, mostly commercial ones, which make easier this data extraction from data bases for the dynamical construction of HTML pages. Often these are ad hoc tools, expressly devised for HTML, work only with a specific system or data source, and do not furnish any general tools or methodologies to be employed in this transformation process. In this research we want to investigate the design of a general model that can be applied to several data transformation cases, and we will study methodologies and tools to:

a) define a mapping between XML and the logic schema and the external views of a data base, so that the job of the designer of applications for data transfer is made easier;

b) describe in XML queries for the extraction of data to be then converted into XML;

c) performing queries and producing the relevant XML documents.
In the same way, the inverse problem of the mapping of XML documents onto a structured data base will be faced as well, by studying methodologies and tools that facilitate or automate such an operation, in order to obtain a complete interchange between the two environments.

2. The transformation of data to be exchanged among distinct applications (or between data sources and applications) by using XML as a communication language. In particular, two cases are possible:

a) if the applications use XML as the "native" language for describing data, they must provide, except for banal cases, reference DTDs. Compatibility rules among structures defined by different DTDs will be devised, and, as a consequence, translation schemes between documents, bearing in mind the goal of producing, in a semi-automatic way, tools to perform the translation.

b) if the application does not directly work on XML documents, we will study the possibility of defining a mapping between the most common type systems of programming languages and XML. In this way, data expressed in XML could be considered as "external representations" of data generated or consumed by applications, re-conducting this problem to the previous case.

3) The identification of the properties characterising information which are exchanged in particular classes of applications, in order to produce tools for the definition of specialised DTDs, for instance in the electronic commerce case, where the standardisation process is particularly relevant. To this end, classes of data "well formed" for specific applications will be taken into account, and abstraction, classification and representation mechanisms will be applied to these classes to organise them according to standard XML/DTD. The unit will study properties of DTD document classes for the same set of applications, so to design tools for the definition, maintenance and access to standard repositories of definitions of data for commercial exchanges.

4) the possibility of defining, by means of XML, not only the static properties of a set of data, but also the properties relative to the interface between data sources and application. We will evaluate the adoption of XML to represent metadata to improve interoperability between semi-structured data sources, expressed in XML, with software components developed according to the model of distributed objects. In these models, remote method invocations require the generation of stubs and skeletons from a specification of an interface expressed in a given Interface Definition Language (IDL). Stub and skeleton are software elements invoked, respectively, by clients and servers to implement the "transparent" method invocation. In this project we will study the issues relative to the specific metadata to be associated with an XML document to make interoperability with distributed objects possible, i.e. to make automatic (or semi-automatic) the mapping between data within an XML document and those defined through a specific IDL to describe the interface of a remote method.

The project is organised in four phases.

1. First phase

During the first phase we will consolidate the state of the art about the interfacing between data sources and applications, taking into account both the W3C standards evolution (XML, XSL, XLL, HTTP-NG), and the proposal coming from the industry. Then we will address the analysis of requirements to interface heterogeneous sources, as well as sources and applications, by considering a set of case studies: partial views on relational databases, compatibility check among XML documents with different DTDs. We will analyse also the requisites posed by several application areas in the context of information exchange and with the use of open standards.

At the end of this phase the following products will be delivered:

T3.1-R5 report on the state of the art and on requirements analysis of the interfacing between sources and applications with XML and related tools

2. Second phase

This phase will include two activities: starting from the analysis conducted in the first phase, we will propose a model for the definition in XML of data exctracted from structured sources, and we will build an experimental prototype. In particular, mechanisms to represent database schemes, views and queries will be studied. Moreover, we will start the study of a model to be used in defining XML interfaces among applications (or data sources and applications) which can specify formal properties (e.g. the type) or semantic ones (depending on particular ontologies). A first experimental prototype will be produced.

At the end of the second phase the following products will be delivered:

T3.2-S5 prototype for XML definition of structured data sources;
T3.2-R6 report on the interface model for the exchange of data based on XML;

3. Third phase

This phase will consider aspects of integration and generalisation of the solutions modelled and experienced in the preceding phases. A prototypal system will be realised to interface sources and applications, with the objective of exchanging data and performing both consistency checks and structural transformations on documents for homogeneous classes of applications.

At the end of the third phase the following product will be delivered:

T3.3-S4 prototype of a system for XML data exchange between sources and applications.

4. Fourth Phase

In this final phase the model and the prototype will be applied to a non-trivial problem, by solving the problem of maintainability of a set of sources and applications which requires periodical revisions in the scheme of the exchanged data.

At the end of this phase the following product will be delivered:

T3.4-S4 enhanced prototype of the tool for the exchange of data;
T3.4-R6 final report: further research and applicability of results (in cooperation with the other reaserch teams on the Theme 3 of the project).

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  19984 personal computer classe Pentium II - Windows NT / Linux  4 personal computer Pentium II - Windows NT / Linux 
2.  19981 server Web / database server classe Pentium II Windows NT  1 database server / Web server Pentium II 
3.     
4.     
5.     


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 20  10.329  Personal computer e server classe Pentium II/III. Libri, manuali, riviste  Personal computers and servers Pentium II/III. Books, manuals, journals. 
Grandi Attrezzature        
Materiale di consumo e funzionamento 2.582  CD, supporti di backup , accessori, spese per fotocopie e stampa  CD's, backup cartridges, accessories, photocopying and printing. 
Spese per calcolo ed elaborazione dati 2.582  Canoni per elaborazione e licenze software  Processing costs, software licenses 
Personale a contratto 20  10.329  Personale per la progettazione e realizzazione del software  Software design and development 
Servizi esterni        
Missioni 40  20.658  Partecipazione a conferenze e workshop in Italia e all'estero  Participation to international and national conferences and workshops 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 90  46.481 
 
Costo minimo per garantire la possibilità di verifica dei risultati 72  37.185 
 
Fondi disponibili (RD) 17  8.780 
 
Fondi acquisibili (RA) 10  5.165 
 
Cofinanziamento richiesto al MURST 63  32.537 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università          
Dipartimento 1998   17  8.780    Fondo di ricerca ex 60% 1997-98, Fondi ricerche di Dipartimento 1997 
MURST (ex 40%)          
CNR          
Unione Europea          
Altro          
TOTAL   17  8.780     

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università 1999   disponibile in caso di accettazione della domanda  10  5.165  Fondo di cofinanziamento di Ateneo 
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL     10  5.165   

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 01/04/1999 13:37:55