Testo italiano
Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente WebTesto inglese
Data-X: Management, Transformation and Exchange of Data in a Web Environment
ATZENI | PAOLO | |
---|---|---|
(cognome) | (nome) | |
Università degli Studi ROMA TRE | Facoltà di INGEGNERIA | |
(università) | (facoltà) | |
K05A | Dipartimento di INFORMATICA E AUTOMAZIONE | |
(settore scient.discipl.) | (Dipartimento/Istituto) |
atzeni@dia.uniroma3.it |
---|
(E-mail) |
CELENTANO | AUGUSTO | |
---|---|---|
(cognome) | (nome) |
Professore ordinario | 07/03/1950 | CLNGST50C07F205B |
---|---|---|
(qualifica) | (data di nascita) | (codice di identificazione personale) |
Università degli Studi di VENEZIA | Facoltà di SCIENZE MATEMATICHE FISICHE e NATURALI |
---|---|
(università) | (facoltà) |
K05A | Dipartimento di INFORMATICA |
(settore scient.discipl.) | (Dipartimento/Istituto) |
041/2908425 | 041/2908419 | auce@unive.it |
---|---|---|
(prefisso e telefono) | (numero fax) | (E-mail) |
K05A | K05B |
Testo italiano
XML ; WORD WIDE WEB ; PROTOCOLLI ; MODELLI DI DATI ; SCAMBIO DI DATI ; DATI SEMISTRUTTURATI ; STANDARD
Testo inglese
XML ; WORLD WIDE WEB ; PROTOCOLS ; DATA MODELS ; DATA EXCHANGE ; SEMISTRUCUTRED INFORMATION ; STANDARD
Testo italiano
Augusto Celentano si è laureato nel 1973 in Ingegneria Elettronica al Politecnico di Milano. Ordinario di Sistemi per l'Elaborazione delle Informazioni presso l'Università Ca' Foscari di Venezia, è Direttore del Dipartimento di Informatica e delegato del Rettore per il Sistema Informatico di Ateneo.
E' stato ricercatore e professore associato presso il Politecnico di Milano, professore associato presso l'Università degli Studi di Brescia, professore straordinario presso il Politecnico di Bari.
Svolge attività didattica nell'area dei sistemi informativi e dei sistemi operativi.
Svolge attività di ricerca nelle aree dei sistemi informativi multimediali, sistemi informativi su Internet/Intranet e sistemi per la formazione a distanza. In passato si è occupato di sistemi informativi per ufficio, sistemi di gestione di documenti, ingegneria del software e linguaggi di programmazione. In queste aree ha pubblicato più di quaranta lavori su riviste e atti di congressi internazionali.
E' stato coordinatore scientifico dell'area "Advanced Information Sistems Technology" presso il Cefriel – Politecnico di Milano, Consorzio per la Ricerca e la Formazione in Tecnologia dell'Informazione. Ha svolto attività di coordinamento scientifico e consulenza scientifica nell'ambito delle iniziative Esprit, Delta e IV Programma Quadro per la Tecnologia dell'Informazione della Comunità Europea.Testo inglese
Augusto Celentano received a master degree in Electronic Engineering from the Technical University of Milan in 1973. He is full Professor of Computer Science at Università Ca' Foscari in Venice, chairman of the Department of Computer Science, and Rector's delegate for the University Information System.
Before joining the University of Venice he was at Technical University of Milan, at University of Brescia and at Technical University of Bari.
He teaches information systems and operating systems courses.
His research interests are multimedia information systems, Internet/Intranet information systems, and open and distance learning. He worked also in the areas of office information systems, document management systems, software engineering and programming languages. He is co-author of more than 40 papers in international journal and conference proceedings.
Augusto Celentano has coordinated the "Advanced Information Technology Systems" area of Cefriel, a Consortium for Research and Education in Information Technology, participated by the Technical University of Milan. He has also worked as a scientific coordinator and as a scientific consultant in many European Community projects: Esprit, Delta, IV Framework Programme in Information Technology.
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|
1999 | 2000 | ||||||
1 | CELENTANO | AUGUSTO | INFORMATICA | Prof. ordinario | K05A | 3 | 3 |
2 | DALLA LIBERA | FRANCESCO | INFORMATICA | Prof. associato | K05B | 2 | 2 |
3 | ORLANDO | SALVATORE | INFORMATICA | Ricercatore | K05B | 2 | 2 |
4 | ORSINI | RENZO | INFORMATICA | Prof. associato | K05B | 3 | 3 |
5 | RONCATO | ALESSANDRO | INFORMATICA | Ricercatore | K05B | 4 | 4 |
1.10.2 Personale universitario di altre Università
Nº | Cognome | Nome | Università | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|---|
1999 | 2000 | |||||||
1.10.3 Titolari di assegni di ricerca
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|---|---|---|---|---|
1. | PITTARELLO | FABIO | INFORMATICA | 2000 | 4 |
Nº | Qualifica | Costo previsto | Mesi uomo |
---|---|---|---|
1. | Da definire | 10 | 5 |
2. | Da definire | 10 | 5 |
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Mesi uomo |
---|---|---|---|---|---|
1. | MARCHIORI | MASSIMO | W3C - MIT | Dottore di ricerca | 8 |
Testo italiano
Protocolli e strumenti per scambio di dati tra sorgenti e applicazioniTesto inglese
Protocols and tools for data exchange between sources and applications
Testo italiano
Il problema dello scambio di dati in ambito WWW ha ricevuto molta attenzione soprattutto in conseguenza della diffusione di XML come standard per la descrizione delle informazioni proposto dal Consorzio W3 (W3C 1998). La assoluta flessibilità e generalità del meccanismo di markup di XML (nonché l'indipendenza dalla piattaforma operativa) consente di utilizzarlo in molti contesti come linguaggio per descrivere dati di tipo generale, non solo documenti per la pubblicazione su WWW.
Manca tuttavia uno strumento o un livello linguistico che possano esprimere il "tipo" e il significato dei dati stessi, poiché il meccanismo di markup di XML ne esprime solo la struttura logico-formale. Allo stato attuale XML non consente infatti di definire né la semantica né i formati interni, rispetto alle applicazioni, dei dati che descrive. Il DTD (Document Type Declaration) è di aiuto limitato per il primo punto, poiché si limita a descrivere uno schema strutturale di composizione tra le parti del documento; il secondo punto è sostanzialmente escluso dalla natura testuale dei dati descritti in modo indipendente dalla piattaforma (anche se questi possono rappresentare codifiche alfanumeriche di dati multimediali in formati standard).
Quando si scambiano dati tra sorgenti eterogenee o tra sorgenti e applicazioni attraverso un meccanismo di interscambio basato su XML tale mancanza può limitare la possibilità di verificare la coerenza delle informazioni durante lo scambio. Ciò riguarda sia l'aspetto formale (tipo) sia quello sostanziale (significato).
Numerose sono le aree applicative in cui il problema è particolarmente sentito; tra esse risaltano oggi quelle collegate alle tematiche dell'electronic business, in particolare per la possibilità di definire (o ridefinire) standard Open EDI su un livello XML (Ontology 1999).
Le basi del presente progetto di ricerca si fondano su tre aree:
1. estrazione di dati da sorgenti eterogenee;
2. protocolli e formati per lo scambio di informazioni tra applicazioni;
3. tecnologie Object Oriented per la descrizione dei dati.
1. Estrazione di dati da sorgenti eterogenee
Il problema dello scambio di dati tra sorgenti e applicazioni presenta molti punti in comune con il problema dell'estrazione di informazioni da sorgenti di dati, spesso non strutturate o semi-strutturate. La differenza principale tra le due aree è che nel primo caso i dati estratti non sono direttamente fruiti dall'utente, ma possono costituire una nuova sorgente di dati, o devono essere immessi in un'altra sorgente o in un'applicazione. La somiglianza tra i due casi rappresenta tuttavia una base di partenza significativa.
L'estrazione di dati da sorgenti semi-strutturate e il riconoscimento della struttura all'interno di sorgenti è stato studiato, tra gli altri, da (Hammer et al. 1997), (Atzeni et al. 1997), (Adelberg 1998), (Mecca et al. 1998). Linguaggi e tecniche di interrogazione sono stati studiati e proposti da (Mendelzon et al. 1996), (Abiteboul et al. 1997), (Fernandez et al. 1998), (Florescu et al. 1998). Il workshop QL'98 (QL 1998) costituisce una fonte di riferimento per l'interrogazione di documenti XML.
2. Protocolli e formati per lo scambio di informazioni tra applicazioni
Sono allo studio svariate proposte per associare allo scambio di dati via XML la definizione di protocolli e di meccanismi di interfacciamento attraverso cui trasmettere informazioni sulla natura dei dati scambiati. XML è proposto come metodo sintattico per descrivere interfacce in un ambiente di oggetti distribuiti. Esistono proposte, come WebBroker (Tigue 1998) o WIDL (Wales 1999), che intendono usare solo tecnologie Web, ovvero XML e HTTP per rappresentare ed implementare, rispettivamente, chiamate di metodi remoti e messaggi di ritorno. In questo modello di oggetti distribuiti i componenti software diventano risorse HTTP indirizzabili tramite URL, mentre i metadati che descrivono le interfacce delle componenti stesse sono documenti XML.
Un esempio di settore applicativo in cui il problema viene affrontato con molta attenzione è l' electronic business, che da tempo ha definito una serie di standard per l'interscambio di informazioni machine-to-machine e application-to-application al fine di automatizzare alcune relazioni commerciali/finanziarie tra aziende (ad esempio tra impresa e banca). Questi standard (EDI) non sono riusciti ad imporsi compiutamente a livello di piccola e media industria a causa degli elevati costi organizzativi e tecnici che le soluzioni imponevano. Gli attuali standard WWW, HTTP, HTML e XML possono fornire alle imprese uno standard "de facto" per un electronic data interchange che sia aperto e effettivamente accessibile a tutti. In particolare l'uso di XML come linguaggio di rappresentazione dei dati di interscambio dovrebbe fornire al vecchio mondo dell'EDI la spinta in più per raggiungere milioni di nuovi utenti (Bryan 1998).
Ad oggi alcuni protocolli sono stati definiti sfruttando queste tecnologie standardizzate, sia per particolari classi di transazioni (mercati e istituzioni finanziarie) sia per generiche situazioni commerciali. La definizione ha comportato l'individuazione della struttura di una classe di messaggi di interscambio attraverso la definizione di opportuni documenti XML/DTD. Tra i protocolli sviluppati secondo questo approccio ricordiamo OFX (OFX 1998), FIXML (FIXML 1998) e OTP (OTP 1998).
3. Tecnologie Object Oriented per la descrizione dei dati
E' ben visibile l'orientamento ad estendere la tecnologia Object Oriented (e le relative metodologie di supporto) ai dati XML sia per quanto riguarda la caratterizzazione dei dati descritti, sia per quanto riguarda la progettazione delle applicazioni. Sono stati studiati modelli ed architetture per applicazioni object-oriented su Web (Rees et al. 1995), (Ingham 1997), (Gellersen e Gaedke 1999), (Manola 1999); l'aggiunta di aspetti procedurali basati su paradigmi Object-Oriented a XML (Apparao et al. 1998), (Stevahn 1998); l'integrazione di XML con modelli di dati orientati ad oggetti per la descrizione di documenti che rappresentano dati, come XML-Data (Layman et al. 1998) e Schema for Object-Oriented XML (Fuchs et al. 1998); modelli di descrizione di metadati con un approccio basato su frames o oggetti per documenti XML (Dempsey 1996), (Guha 1997), (Lassila and Swick 1999), (Brickley and Guha 1999).
L'Unità di ricerca dell'Università di Venezia ha maturato negli ultimi anni una varietà di esperienze su sistemi informativi in ambito WWW in cui lo scambio di dati tra sorgenti e applicazioni ha presentato aspetti particolari, e sulle problematiche dello scambio di informazioni in sistemi di commercio elettronico (Dalla Libera e De Min 1997).
E' stato studiato il problema dell'inserimento di dati estratti da basi di dati relazionali in documenti Web, ed è stato definito un modello generale e una serie di strumenti per il caso dei "musei virtuali" (Furano et al. 1997). Meccanismi per la ricerca e l'estrazione di dati su tale modello sono descritti in (Furano e Orsini 1999).
L'unità ha inoltre acquisito esperienza su modelli e linguaggi per basi di dati orientati ad oggetti, in particolare per linguaggi con un ricco sistema di tipi e forte controllo statico (Albano et al. 1995).
La trasformazione di documenti XML è alla base di un sistema di interfacciamento di siti Web con sistemi di presentazione basati sulla realtà virtuale (Celentano 1998), (Celentano 1999), (Celentano et al. 1999).Testo inglese
Data exchange in WWW has received a lot of attention due to the rapid diffusion of the proposal of XML as standard for information description by the W3 Consortium (W3C 1998). The complete flexibility and generality of the XML markup mechanism as well as its platform-independence, allows its use in many contexts as a language for describing data of any kind, not only for documents to be published on WWW.
What is missing is either a tool or a linguistic level to denote the meaning and type of data, since the XML markup mechanism only denotes the logic structure of data. Currently, XML allows neither description of the semantics nor that of the internal representation of data, with respect to applications. The DTD (Document Type Declaration) is of little help to address semantics issues, because it only describes the structural scheme of composition of the parts of the document. The internal representation is excluded due to the textual (and platform-idenpendet) nature of the data described (even if they could represent in a standard format an alphanumeric coding of multimedia data).
When exchanging data between different data sources, or between data sources and applications by using an XML based mechanism, this omission may limit the possibility of verifying data coherency. This involves both the formalization aspects (type) and the semantics aspects (meaning). This problem is a big roadblock in many application areas; among them, the electronic commerce area, because of the possibility of defining (or redefining) standards like Open EDI in XML (Ontology 1999).
This research project addresses three areas:
1. data extraction from heterogeneous sources;
2. protocols and data formats for the exchange of informations among applications;
3. object-oriented technologies for data description.
1. Data extraction from heterogeneous sources
The problem of information exchange between data sources and applications is somewhat similar to the problem of information extraction from structured or semi-structured data sources. The main difference between the two areas is that in the former case data are not directly exploited by users, but are used as new data source, or are to be transferred to a data base, or an application. The similarities between the two areas represent, however, a significant common base, from which our research can start. Data extraction from semi-structured sources, and structure recognition in such sources has been addressed by, among others, (Hammer et al. 1997), (Atzeni et al. 1997), (Adelberg 1998), (Mecca et al. 1998). Query languages and strategies have been studied and proposed in (Mendelzon et al. 1996), (Abiteboul et al. 1997), (Fernandez et al. 1998), (Florescu et al. 1998). An important source for the problem of querying XML documents can be found in the works of the QL'98 workshop (QL 1998).
2. Protocols and data formats for the exchange of informations among applications
Several proposals have been presented about the use of XML to define protocols and interfacing mechanisms, through which information on the exchanged data can be transmitted as well. XML has been proposed as a syntactic method to describe interfaces within a distributed object environment. There are some proposals, such as WebBroker (Tigue 1998) or WIDL (Wales 1999), which are committed to the use of Web-based technologies, i.e. XML and HTTP, to represent and implement, respectively, remote method calls and return messages. In this model of distributed objects, the software components are HTTP resources that are addressable through URLs, while metadata that describe the component interfaces are XML documents as well.
The electronic commerce is a crucial applicative area in which the problem is addressed with particular attention. In such area a well extablished set of standards exists to exchange data in between systems or applications with the scope of automating some important commercial or financial relations among organizations (e.g. banks and their clients). Such standards (EDI) found many obstacles to their widespread adoption in small to medium organizations, mostly dues the complexities and costs of the solution. The current, largely diffused standards WWW, HTTP, HTML e XML can be used as foundation of an open and widely accessible electronic data exchange standard. In particular, the use of XML as language for the representation of exchange data should push "old" EDI techniques and applications to a much wider acceptance and diffusion (Bryan 1998). Currently a few protocols have been defined by using these standards, both for particular kinds of economic transactions (markets and financial institutions), and for generic commercial use. A set of XML/DTD has been defined to describe the structure of a set of data exchange messages in this area. This approach is taken, for instance, for OFX (OFX 1998), FIXML (FIXML 1998) and OTP (OTP 1998).
3. Object-oriented technologies for data description
Nowadays there is a great effort toward the application of the Object Oriented technologies, along with the relative methodologies, to XML data. These technologies are exploited both for data characterization, as well as for designing applications. In particular, investigations are made in several directions: models and architectures for object-oriented applications based on the Web (Rees et al. 1995), (Ingham 1997), (Gellersen e Gaedke 1999), (Manola 1999); the addition of procedural aspects, based upon object-oriented paradigms, to XML data (Apparao et al. 1998), (Stevahn 1998); the integration of XML with object-oriented data models to describe documents that represent data, such as XML-Data (Layman et al. 1998) and Schema for Object-Oriented XML (Fuchs et al. 1998); models for metadata description with an approach based upon frames or objects for XML documents (Dempsey 1996), (Guha 1997), (Lassila and Swick 1999), (Brickley and Guha 1999).
The research team at the University of Venice has been involved in a variety
of experiences on WWW information systems, where data exchange between data sources and applications presents peculiar aspects, and in problems of informations exchange in electronic commerce systems (Dalla Libera e De Min 1997).
The problem of inserting data extracted from relational databases into Web document has been studied. A general model and a set of tools have been defined for the spacial case of "virtual museums" (Furano et al. 1997).
Mechanisms for finding and retrieving data in such a model are described in (Furano e Orsini 1999).
In addition, the team conducted researches on models and languages for object-oriented databases, in particular for languages with a rich type system, thus allowing a strong static type control to be applied (Albano et al. 1995).
Transformation of XML documents is at the core of a system for interfacing
Web sites to presentation systems based on virtual reality (Celentano 1998), (Celentano 1999), (Celentano et al. 1999).
(Abiteboul et al., 1997) S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. L. Weiner: "The lorel query language for semistructured data", Journal of Digital Library, 1, 1997
(Adelberg, 1998) B. Adelberg. "NoDoSE a tool for semi-automatically extracting structured and semistructured data from text documents". In ACM SIGMOD, 1998
(Albano et al., 1995) Albano A., G. Ghelli, R. Orsini, "Fibonacci: A Programming Language for Object Databases" The VLDB Journal, 4(3), 1995, pp.403-444.
(Apparao et al. 1998) Apparao V., B. Eich, R. Guha, N. Ranjan, "Action Sheets: A Modular Way of Defining Behavior for XML and HTML", W3C Note AS-19980619, (www.w3.org/TR/NOTE-AS).
(Atzeni et al., 1997) P.Atzeni, G.Mecca, P.Merialdo "To Weave the Web". In VLDB'97, 1997
(Brickley and Guha 1999) Brickley D., R.V. Guha, "Resource Description Framework (RDF) Schema Specification, W3C Proposed Recommendation PR-19990303, (www.w3c.org/TR/PR-rdf-schema).
(Bryan 1998) M. Bryan, "Guidelines for using XML for Electronic Data Interchange", http://www.geocities.com/WallStreet/Floor/5815/guide.htm
(Celentano 1998) A. Celentano, "Rappresentazione di informazioni complesse attraverso la metafora dei mondi virtuali", InterData Tech. Rep. T2-R08, 1998
(Celentano 1999) A. Celentano, "Virtual Worlds as Metaphors for Web Sites Exploration: Are They Effective?", Rapporto Tecnico Università di Venezia CS-99-6, 1996, submitted for publication.
(Celentano et al. 1999) A. Celentano, A. Culatti, A. Longo, "Virtual reality as a metaphore for representing Web sites", InterData Tech. Rep. T2-R19, 1999
(Dalla Libera e DeMin 1997), F.Dalla Libera, P.De Min, "Nuovi Modelli di Commercio Elettronico", TIF '97 - Tecnologie Informatiche e Lavoro, Ottobre 1997.
(Dempsey 1996), Dempsey L., S.L.Weibel, "'The Warwick Metadata Workship: A Framework for the Deployment of Resource Description", D-Lib Magazine, July/August 1996, (www.dlib.org/dlib/july96/07weibel.html)
(Fernandez et al., 1998) M.Fernandez, D.Florescu, J.Kang, A.Levy, D.Suciu. "Catching the Boat with Strudel: Experiences with aWeb-Site Management System". In ACM SIGMOD'98, 1998
(FIXML 1998) "FIXML, A Markup Language for the FIX Application Message Layer", http://www.fixprotocol.org
(Florescu et al., 1998) D.Florescu, A.Levy, "A.Mendelzon. Database techiques for the world-wide web: a survey", ACM SIGMOD Record, 27(3), Sept. 1998.
(Fuchs et al. 1998), Fuchs M., M. Maloney, A. Milowski, "Schema for Object-Oriented XML", W3C Note AS-19980930, (//www.w3.org/TR/NOTE-SOX).
(Furano et al. 1997) F. Furano, R. Orsini, A. Celentano, Museum On Demand: dynamic management of resources in World Wide Web museums, Hypertexts and Hypermedias, Vol 1, N.2-3-4/1997.
(Furano e Orsini 1999) F. Furano e R. Orsini, Mecanismi di ricerca per il modello "Museum-On-Demand", Rapporto Tecnico Università di Venezia CS-99-5, 1999.
(Gellersen e Gaedke 1999) H.W. Gellersen M. Gaedke, Object Oriented Web Application Development, Internet Computing, Jan-Feb 1999
(Guha 1997), Guha R.V., T. Bray, "Meta Content Framework Using XML", W3C Note, (www.w3.org/TR/NOTE-MCF-XML-970624).
(Hammer et al., 1997) J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo. "Extracting semistructured information from the Web". In Proc. of the Workshop on the Management of Semistructured Data, 1997
(Ingham 1997) D. B. Ingham , "W3Objects: A Distributed Object-Oriented Web Server", Object-Oriented Web Servers and Data Modeling Workshop, 6th Intl. WWW Conf., Santa Clara, California, USA, 7-11 April 1997.
(Layman et al. 1998), Layman A. et al., "XML-Data", W3C Note AS-19980501, (www.w3.org/TR/NOTE-XML-data).
(Lassila and Swick 1999) Lassila O., R.R. Swick, "Resource Description Framework (RDF) Model and Syntax Specification", W3C Recommendation REC-19990222 (www.w3c.org/REC-rdf-syntax).
(Manola 1999) F. Manola, "Technologies for a Web Object Model", Internet Computing, Jan-Feb 1999
(Mecca et al., 1998) G.Mecca, P. Atzeni, A. Masci, P.Merialdo, G. Sindoni, "The Araneus Web-Base Management System".Proceedings of SIGMOD, 1998
(Mendelzon et al., 1996) A.Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.
(OFX 1998) "Open Financial Exchange", http://www.ofx.net
(Ontology 1999) "The Need for Shared Ontology", http://www.ontology.org, 1999
(OTP 1998) "Open TRading Protocol Specification 0.9.9", http://www.otp.org
(QL 1998) Proceedings of the W3C QL'98 Workshop, http://www.w3.org/Tands/QL/QL98/
(Rees et al. 1995), Rees O., N. Edwards, M. Madsen, M. Beasley, A. McClenaghan, A Web of Distributed Objects, 4th Intl. Web Conference, Dec. 95 (www.ansa.co.uk/ANSA/ISF/wdistobj/Overview.html).
(Stevahn 1998), Stevahn R., "Adding Style and Behavior to XML with a Dash of Spice", W3C Note AS-19980123, (www.w3.org/TR/NOTE-spice).
(Tigue 1998) J. Tigue e J. Lavinder, "WebBroker: Distributed Object Communication on the Web", W3C Note, World Wide Web Consortium, 1998
(W3C 1998) "Extensible Markup Language (XML) 1.0", W3C Recommendation 10-February-1998, http://www.w3.org/TR/1998/REC-xml-19980210
(Wales 1999) M. Wales, "WIDL: Interface Definition for the Web", Internet Computing, Jan-Feb 1999
Testo italiano
L'unita' di ricerca dell'Università di Venezia è coinvolta nel Tema 3 del progetto: "Produzione e Scambio di Sorgenti di Dati in Ambiente Web".
Il programma di ricerca ha come obiettivo la definizione di protocolli e strumenti che supportino lo scambio di dati tra sorgenti e applicazioni.
L'unità di ricerca dell'Università di Venezia intende studiare la possibilità di utilizzare XML come linguaggio per definire protocolli di interscambio dati tra sorgenti e applicazioni, considerando in particolare i punti di seguito dettagliati.
1. La pubblicazione di dati da database verso Web. Spesso, infatti, il materiale che forma i documenti pubblicati su Web è, almeno in parte, estratto da sorgenti di dati strutturate, come le basi di dati. Attualmente esistono molti strumenti, anche commerciali, che facilitano l'estrazione di dati da una base di dati per la costruzione dinamica di pagine HTML. Questi strumenti sono pensati per HTML, quasi sempre ad-hoc, legati ad un particolare sistema o sorgente di dati, e molto spesso non forniscono al progettista del sito strumenti o metodologie generali da impiegare in questo processo di trasformazione. Si affronterà il problema di costruire un modello generale applicabile a più casi di trasformazione, e si studieranno metodologie e strumenti per:
a) definire un "mapping" fra lo schema logico e le viste esterne di una base di dati e XML, in modo da facilitare il compito del progettista delle applicazioni che devono effettuare il trasferimento dei dati;
b) descrivere in XML le interrogazioni da effettuare per estrarre i dati e convertirli in XML;
c) effettuare l'interrogazione e produrre i relativi documenti XML.
In maniera simmetrica, si affronterà il problema inverso di "mappare" documenti XML in un insieme strutturato di dati (come una base di dati), studiando metodologie e strumenti che facilitino o automatizzino tale operazione, al fine di ottenere un completo interscambio fra i due ambienti.
2. La trasformazione di dati che devono essere scambiati tra applicazioni diverse (o tra sorgenti di dati e applicazioni) usando XML come linguaggio di comunicazione. Si hanno due casi:
a) se le applicazioni utilizzano XML come linguaggio "nativo" per descrivere i propri dati, esse devono prevedere, salvo casi banali, DTD di riferimento. Si definiranno allora criteri di compatibilità fra le strutture definite da DTD differenti, e conseguentemente schemi di traduzione tra i documenti, con l'obiettivo di poter generazione in modo semi-automatico strumenti che effettuino la traduzione.
b) se le applicazioni non operano direttamente su documenti XML, si studierà la possibilità di definire un mapping tra i più comuni sistemi di tipi dei linguaggi di programmazione e XML. In questo modo i dati espressi in linguaggio XML potranno essere visti come "rappresentazioni esterne" dei dati generati o consumati dalle applicazioni, riconducendo quindi il problema al caso precedente.
3) L'identificazione delle proprietà che caratterizzano le informazioni scambiate in funzione di tipologie o classi di applicazioni allo scopo di realizzare strumenti per definire DTD specializzati, ad esempio per applicazioni di electronic business, dove il problema della standardizzazione è particolarmente critico.
A questo scopo si prenderanno in esame classi di dati "ben formati" per determinate applicazioni commerciali e su queste classi si applicaheranno meccanismi di classificazione, astrazione e rappresentazione utili ad una loro organizzazione secondo gli standard XML/DTD.
Si studieranno le proprietà di classi di documenti DTD per le medesime classi di applicazioni al fine di progettare strumenti per la definizione, il mantenimento e l'accesso a repository standard di definizioni di dati di interscambio commerciale.
4) la possibilità di definire attraverso XML non solo le proprietà statiche di un insieme di dati, ma anche le proprietà relative all'interfacciamento tra sorgenti e applicazioni. Verrà valutato l'uso di XML per rappresentare metadati per migliorarne l'interoperabilità tra sorgenti di dati semistrutturate espresse in XML, con componenti software sviluppati in accordo al modello degli oggetti distribuiti. In tali modelli, invocazioni di metodi remoti richiedono la generazione di stub e skeleton a partire da una specifica di interfaccia espressa in un certo Interface Definition Language (IDL). Stub e skeleton sono elementi software invocati, rispettivamente, dal cliente e dal servente per realizzare l'invocazione "trasparente" di un metodo remoto. Nel progetto studieremo le problematiche relative al tipo di metadato da associare ad un documento XML per realizzare l'interoperabilità con un sistema di oggetti distribuiti, ovvero per l'automatizzazione del mapping tra i dati contenuti nel documento, e quelli definiti tramite lo specifico IDL per descrivere l'interfaccia di un certo metodo remoto.
Il progetto sarà articolato in quattro fasi semestrali.
1. Prima fase
Durante la prima fase l'attività partirà dal consolidamento dello stato dell'arte sull'interfacciamento tra sorgenti e applicazioni, considerando sia l'evoluzione degli standard W3C (XML, XSL, XLL e HTTP-NG), sia le proposte che provengono dal mondo industriale. Si affronterà quindi l'analisi dei requisiti di interfacciamento tra sorgenti eterogenee e tra sorgenti e applicazioni con riferimento ad alcuni casi di studio selezionati: realizzazione di viste parziali su database relazionali, verifica di compatibilità tra documenti XML definiti da DTD differenti. Si analizzeranno inoltre i requisiti che alcuni settori applicativi pongono sullo scambio di informazioni dal punto di vista della definizione di standard aperti.
Questa fase si baserà sul contesto metodologico di riferimento definito per l'intero progetto.
Al termine della prima fase saranno rilasciati i seguenti prodotti:
T3.1-R5: rapporto sullo stato dell'arte e sull'analisi dei requisiti nell'interfacciamento fra sorgenti e applicazioni con XML e strumenti collegati
2. Seconda fase
La seconda fase comporterà due attività: a seguito dell'analisi condotta nella prima fase, si proporrà un modello per la definizione in XML di dati provenienti da sorgenti strutturate, e si realizzerà un prototipo sperimentale. In particolare, verranno studiati meccanismi per rappresentare schemi di basi di dati e viste e interrogazioni da basi di dati. Si inizierà inoltre lo studio di un modello volto a consentire la definizione in XML di interfacce tra applicazioni (o tra sorgenti di dati e applicazioni) che siano in grado di specificare proprietà formali (ad es. il tipo) e semantiche (riferite ad ontologie dipendenti dall'ambito applicativo), e sarà prodotto un primo prototipo sperimentale.
Alla fine della seconda fase saranno rilasciati i seguenti prodotti:
T3.2-S5: prototipo per la definizione in XML di dati provenienti da sorgenti strutturate;
T3.2-R6: rapporto sul modello di interfaccia per lo scambio di dati basato su XML.
3. Terza fase
La terza fase considererà aspetti di integrazione e generalizzazione delle soluzioni modellate e sperimentate nelle due fasi precedenti: si procederà alla realizzazione di un sistema prototipale per l'interfacciamento di sorgenti e applicazioni con l'obiettivo di scambiare dati effettuando verifiche di coerenza e trasformazioni di struttura per classi di applicazioni omogenee.
Alla fine della terza fase saranno rilasciati i seguenti prodotti:
T3.3-S4 prototipo di sistema di scambio dati XML tra sorgenti e applicazioni.
4. Quarta fase
Nella fase finale del progetto il modello e il relativo prototipo saranno applicati ad un caso non banale, affrontando il problema della mantenibilità di un insieme di sorgenti e applicazioni che possono richiedere periodiche revisioni negli schemi dei dati scambiati.
Alla fine della quarta fase saranno rilasciati i seguenti prodotti:
T3.4-S4 secondo prototipo dello strumento per lo scambio di dati;
T3.4-R5 rapporto conclusivo: sviluppi futuri della ricerca e applicabilità dei risultati (in collaborazione con le unità di ricerca coinvolte sul Tema 3 del progetto).Testo inglese
The research team at the University of Venice is involved in the third theme of the project : "Production and exchange of data sources in the Web environment". The goal of the resarch proposed is the definition of protocols and tools to support data exchange among data sources and applications.
The research team at the University of Venice will study the possibility of using XML as language for the definition of data exchanging protocols among data sources and applications, by considering, in particular, the following issues.
1. The publication on Web of data extracted from data bases. In fact, frequently material contained in Web documents is extracted from structured data sources, like relational or object-oriented databases. Many tools exists, mostly commercial ones, which make easier this data extraction from data bases for the dynamical construction of HTML pages. Often these are ad hoc tools, expressly devised for HTML, work only with a specific system or data source, and do not furnish any general tools or methodologies to be employed in this transformation process. In this research we want to investigate the design of a general model that can be applied to several data transformation cases, and we will study methodologies and tools to:
a) define a mapping between XML and the logic schema and the external views of a data base, so that the job of the designer of applications for data transfer is made easier;
b) describe in XML queries for the extraction of data to be then converted into XML;
c) performing queries and producing the relevant XML documents.
In the same way, the inverse problem of the mapping of XML documents onto a structured data base will be faced as well, by studying methodologies and tools that facilitate or automate such an operation, in order to obtain a complete interchange between the two environments.
2. The transformation of data to be exchanged among distinct applications (or between data sources and applications) by using XML as a communication language. In particular, two cases are possible:
a) if the applications use XML as the "native" language for describing data, they must provide, except for banal cases, reference DTDs. Compatibility rules among structures defined by different DTDs will be devised, and, as a consequence, translation schemes between documents, bearing in mind the goal of producing, in a semi-automatic way, tools to perform the translation.
b) if the application does not directly work on XML documents, we will study the possibility of defining a mapping between the most common type systems of programming languages and XML. In this way, data expressed in XML could be considered as "external representations" of data generated or consumed by applications, re-conducting this problem to the previous case.
3) The identification of the properties characterising information which are exchanged in particular classes of applications, in order to produce tools for the definition of specialised DTDs, for instance in the electronic commerce case, where the standardisation process is particularly relevant. To this end, classes of data "well formed" for specific applications will be taken into account, and abstraction, classification and representation mechanisms will be applied to these classes to organise them according to standard XML/DTD. The unit will study properties of DTD document classes for the same set of applications, so to design tools for the definition, maintenance and access to standard repositories of definitions of data for commercial exchanges.
4) the possibility of defining, by means of XML, not only the static properties of a set of data, but also the properties relative to the interface between data sources and application. We will evaluate the adoption of XML to represent metadata to improve interoperability between semi-structured data sources, expressed in XML, with software components developed according to the model of distributed objects. In these models, remote method invocations require the generation of stubs and skeletons from a specification of an interface expressed in a given Interface Definition Language (IDL). Stub and skeleton are software elements invoked, respectively, by clients and servers to implement the "transparent" method invocation. In this project we will study the issues relative to the specific metadata to be associated with an XML document to make interoperability with distributed objects possible, i.e. to make automatic (or semi-automatic) the mapping between data within an XML document and those defined through a specific IDL to describe the interface of a remote method.
The project is organised in four phases.
1. First phase
During the first phase we will consolidate the state of the art about the interfacing between data sources and applications, taking into account both the W3C standards evolution (XML, XSL, XLL, HTTP-NG), and the proposal coming from the industry. Then we will address the analysis of requirements to interface heterogeneous sources, as well as sources and applications, by considering a set of case studies: partial views on relational databases, compatibility check among XML documents with different DTDs. We will analyse also the requisites posed by several application areas in the context of information exchange and with the use of open standards.
At the end of this phase the following products will be delivered:
T3.1-R5 report on the state of the art and on requirements analysis of the interfacing between sources and applications with XML and related tools
2. Second phase
This phase will include two activities: starting from the analysis conducted in the first phase, we will propose a model for the definition in XML of data exctracted from structured sources, and we will build an experimental prototype. In particular, mechanisms to represent database schemes, views and queries will be studied. Moreover, we will start the study of a model to be used in defining XML interfaces among applications (or data sources and applications) which can specify formal properties (e.g. the type) or semantic ones (depending on particular ontologies). A first experimental prototype will be produced.
At the end of the second phase the following products will be delivered:
T3.2-S5 prototype for XML definition of structured data sources;
T3.2-R6 report on the interface model for the exchange of data based on XML;
3. Third phase
This phase will consider aspects of integration and generalisation of the solutions modelled and experienced in the preceding phases. A prototypal system will be realised to interface sources and applications, with the objective of exchanging data and performing both consistency checks and structural transformations on documents for homogeneous classes of applications.
At the end of the third phase the following product will be delivered:
T3.3-S4 prototype of a system for XML data exchange between sources and applications.
4. Fourth Phase
In this final phase the model and the prototype will be applied to a non-trivial problem, by solving the problem of maintainability of a set of sources and applications which requires periodical revisions in the scheme of the exchanged data.
At the end of this phase the following product will be delivered:
T3.4-S4 enhanced prototype of the tool for the exchange of data;
T3.4-R6 final report: further research and applicability of results (in cooperation with the other reaserch teams on the Theme 3 of the project).
Nº | Anno di acquisizione | Descrizione | |
---|---|---|---|
Testo italiano | Testo inglese | ||
1. | 1998 | 4 personal computer classe Pentium II - Windows NT / Linux | 4 personal computer Pentium II - Windows NT / Linux |
2. | 1998 | 1 server Web / database server classe Pentium II Windows NT | 1 database server / Web server Pentium II |
3. | |||
4. | |||
5. |
Attrezzatura I
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Attrezzatura II
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Voce di spesa | Spesa | Descrizione | ||
---|---|---|---|---|
M£ | Euro | Testo italiano | Testo inglese | |
Materiale inventariabile | 20 | 10.329 | Personal computer e server classe Pentium II/III. Libri, manuali, riviste | Personal computers and servers Pentium II/III. Books, manuals, journals. |
Grandi Attrezzature | ||||
Materiale di consumo e funzionamento | 5 | 2.582 | CD, supporti di backup , accessori, spese per fotocopie e stampa | CD's, backup cartridges, accessories, photocopying and printing. |
Spese per calcolo ed elaborazione dati | 5 | 2.582 | Canoni per elaborazione e licenze software | Processing costs, software licenses |
Personale a contratto | 20 | 10.329 | Personale per la progettazione e realizzazione del software | Software design and development |
Servizi esterni | ||||
Missioni | 40 | 20.658 | Partecipazione a conferenze e workshop in Italia e all'estero | Participation to international and national conferences and workshops |
Altro |
M£ | Euro | |
---|---|---|
Costo complessivo del Programma dell'Unità di Ricerca | 90 | 46.481 |
Costo minimo per garantire la possibilità di verifica dei risultati | 72 | 37.185 |
Fondi disponibili (RD) | 17 | 8.780 |
Fondi acquisibili (RA) | 10 | 5.165 |
Cofinanziamento richiesto al MURST | 63 | 32.537 |
QUADRO RD
Provenienza | Anno | Importo disponibile | nome Resp. Naz. | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | |||||
Dipartimento | 1998 | 17 | 8.780 | Fondo di ricerca ex 60% 1997-98, Fondi ricerche di Dipartimento 1997 | |
MURST (ex 40%) | |||||
CNR | |||||
Unione Europea | |||||
Altro | |||||
TOTAL | 17 | 8.780 |
4.1.1 Altro
QUADRO RA
Provenienza | Anno della domanda o stipula del contratto | Stato di approvazione | Quota disponibile per il programma | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | 1999 | disponibile in caso di accettazione della domanda | 10 | 5.165 | Fondo di cofinanziamento di Ateneo |
Dipartimento | |||||
CNR | |||||
Unione Europea | |||||
Altro | |||||
TOTAL | 10 | 5.165 |
4.2.1 Altro
Firma ____________________________________________ |
---|
Firma ____________________________________________ | 01/04/1999 13:37:55 |
---|