MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9909A77532_006


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web

Testo inglese

Data-X: Management, Transformation and Exchange of Data in a Web Environment

1.4 Coordinatore Scientifico del Programma di Ricerca

ATZENI PAOLO  
(cognome) (nome)  
Università degli Studi ROMA TRE Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E AUTOMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


atzeni@dia.uniroma3.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

BARALIS ELENA MARIA  
(cognome) (nome)  


Ricercatore 09/03/1962 BRLLMR62C49L219W
(qualifica) (data di nascita) (codice di identificazione personale)

Politecnico di TORINO Facoltà di INGEGNERIA II (sede VERCELLI)
(università) (facoltà)
K05A Dipartimento di AUTOMATICA E INFORMATICA
(settore scient.discipl.) (Dipartimento/Istituto)


011/5647075 011/5647099 baralis@athena.polito.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
BASI DI DATI ; WORLD WIDE WEB ; XML ; DATA MINING ; CLASSIFICAZIONE DI DOCUMENTI

Testo inglese
DATABASE ; WORLD WIDE WEB ; XML ; DATA MINING ; DOCUMENT CLASSIFICATION


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Elena Baralis e` nata a Torino il 9 marzo 1962. Si e` laureata in Ingegneria Elettronica presso il Politecnico di Torino nel 1986. Dopo un periodo di lavoro in aziende di consulenza informatica, ha conseguito il Dottorato in Ingegneria Informatica e dei Sistemi nel 1994. Attualmente e` in servizio come ricercatore confermato (dal 1996) presso il Politecnico di Torino.

Ha svolto attivita` di ricerca principalmente sui seguenti argomenti:

  • Basi di dati attive: proprieta` formali delle regole attive [1,4], metodologie e strumenti di progettazione per sistemi con regole attive [3], ottimizzazione del processo di esecuzione e valutazione delle prestazioni di regole attive.
  • Data warehousing: criteri di progettazione fisica della base di dati con l'obiettivo di migliorare le prestazioni di esecuzione di funzioni aggregate [5].
  • Data Mining: linguaggi e algoritmi per l'estrazione di regole di associazione da basi di dati relazionali [2], analisi di sequenze e classificazione del comportamento degli utenti di server Web.


Elena Baralis e` responsabile dell'attivita` del Politecnico di Torino in numerosi progetti di ricerca, tra cui il progetto Eureka EU1063 HPPC/SEA (High Performance Parallel Computing/Software Environment and Applications), il progetto MURST 1997 "Interdata: metodologie e tecnologie per la gestione di dati e processi su reti internet e intranet" e il progetto LE4-8343 "MIETTA" (Multilingual Information Extraction for Tourism and Travel Assistance) finanziato dalla Comunita` Europea.

Ha fatto parte del Comitato di Programma di numerose conferenze nazionali e internazionali (VLDB'96, DOOD'97, VLDB'99, DaWak'99,SEBD'99).

Testo inglese

Elena Baralis was born in Torino on march 9, 1962. She earned a Laurea degree in Electrical Engineering from the Politecnico di Torino in 1986. After having worked for several years in software consulting companies, she earned a PhD in Information and Systems Engineering in 1994. Currently, she is Assistant Professor (since 1996) of the Politecnico di Torino.

Her research activity is focused on the following main topics:

  • Active database systems: formal properties of active rules [1,4], metodologies and tools for active rule systems design [3], optimization of the rule execution process, performance evaluation of active rule systems.
  • Data warehousing: design criteria for physical design of the data warehouse aiming at the improvement of execution performance for aggregate functions [5].
  • Data mining: languages and algorithms for the extraction of association rules from relational databases [2], sequence analysis, and classification of user behavior for Web servers.


Elena Baralis is responsible of the activity of Politecnico di Torino in several research projects, among which Eureka project EU1063 HPPC/SEA (High Performance Parallel Computing/Software Environment and Applications), MURST 1997 project "Interdata: metodologies and technologies for data and process management on internet and intranet networks", and European Community project LE4-8343 "MIETTA" (Multilingual Information Extraction for Tourism and Travel Assistance).

She was on the Program Committee of several national and international conferences (VLDB'96, DOOD'97, VLDB'99, DaWak'99, SEBD'99).

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. BARALIS E.M., CERI S., PARABOSCHI S., "Compile-time and Run-time Analysis of Active Behaviors" , Rivista: IEEE TKDE , Volume: 10 , pp.: 353-370 , ISBN/ISSN: 1041-4347 , (1998) .
  2. BARALIS E.M., PSAILA G., "Designing Templates for Mining Association Rules" , Rivista: JIIS , Volume: 9 , ISBN/ISSN: 0925-9902 , (1997) .
  3. BARALIS E.M., CERI S., PARABOSCHI S., "Modularization Techniques for Active Rules Design" , Rivista: ACM TODS , Volume: 21 , pp.: 1-29 , ISBN/ISSN: 0362-5915 , (1996) .
  4. BARALIS E.M., "Rule Analysis" , Rivista: in Active Database Systems , ISBN/ISSN: 0-387-98529-8 , (1998) Springer Verlag .
  5. BARALIS E.M., PARABOSCHI S., TENIENTE E., "Materialized View Selection in a Multidimensional Database" , Rivista: Proc. of VLDB'97 , pp.: 156-165 , ISBN/ISSN: 5860-470-7 , (1997) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  BARALIS  ELENA MARIA  AUTOMATICA E INFORMATICA  Ricercatore  K05A  6  6
2  MACII  ENRICO  AUTOMATICA E INFORMATICA  Prof. associato  K05A  2  2
3  MEO  ANGELO RAFFAELE  AUTOMATICA E INFORMATICA  Prof. ordinario  K05A  2  2
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. MEO  ROSA  AUTOMATICA E INFORMATICA  1997  12 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. Laureato 
2. Laureato  10 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Classificazione di documenti XML

Testo inglese

Classification of XML Documents

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

Gli strumenti di classificazione apprendono da un insieme di record o documenti, denominati insieme di addestramento, le caratteristiche che permettono di distinguere due o piu` classi di dati. Ogni esempio nell'insieme di addestramento e` etichettato con il nome della classe a cui appartiene. Gli algoritmi di classificazione costruiscono un modello delle classi utilizzando le informazioni negli esempi. Dopo che il modello e` stato costruito, puo` essere utilizzato per determinare la classe di record o documenti "ignoti".

La classificazione e` stata ampiamente studiata in un gran numero di campi di ricerca. Nel caso di dati strutturati, gli algoritmi proposti possono rappresentare il modello delle classi usando modelli statistici come il discriminante lineare/quadratico (James 1985), gli alberi di decisione (Quinlan 1994, Shafer et al. 1996) o le regole di classificazione (Clark et al. 1995). Una panoramica estesa degli algoritmi di classificazione piu` comuni si trova in (Michie et al. 1994).

Si considerano in maggiore dettaglio i classificatori basati sugli alberi di decisione, le cui caratteristiche sembrano piu` promettenti per la classificazione di dati semistrutturati. Un classificatore basato su un albero di decisione partiziona ripetutamente l'insieme di addestramento per costruire un albero di decisione in cui:

  • i nodi interni corrispondono a condizioni sul valore degli attributi
  • le foglie contengono una stima delle classi corrette per elementi che soddisfano le condizioni nei nodi dalla foglia alla radice dell'albero.

Una rappresentazione alternativa del modello e` un insieme di regole di classificazione. In questo caso, l'antecedente della regola e` una condizione sugli attributi non di classe (cioe' gli attributi che non definiscono le classi), mentre il conseguente della regola e` il valore dell'attributo di classe (cioe' l'attributo a seconda dei cui valori sono definite le classi) a cui corrisponde la condizione. La conversione di un albero di decisione in un insieme di regole e viceversa e` sempre possibile.

Nel campo dell'information retrieval, il modello delle classi e` stato definito da un gran numero di tecniche, che possono sommariamente essere divise in (a) tecniche che fanno uso di parsing, informazioni sintattiche e elaborazione del linguaggio naturale (per esempio, in (Riloff 1994) e` proposta l'attivazione di frame e in (Papka e Allan 1998) sono discussi gli sviluppi piu recenti dell'espansione di interrogazioni), (b) il metodo LSI (Latent Semantic Indexing), basata sulla descrizione dei documenti mediante vettori i cui elementi rappresentano la frequenza di termini nel documento (Deerwester et al. 1990), (c) metodi che fanno uso di reti neurali (Scholtes 1991). Un confronto di vari metodi e` presente in (Schutze 1995) e in (Chen 1998).

Un approccio piu` vicino alle tecniche utilizzate per dati strutturati e` presentato in (Apte 1994), che suggerisce l'uso di regole di classificazione per caratterizzare in modo distintivo diverse categorie (classi) di documenti; in questo caso, gli attributi utilizzati per la classificazione sono dizionari di termini, eventualmente specializzati per famiglie di documenti.

In questa attivita` di ricerca sara` sfruttata l'esperienza precedente di definizione di un ambiente per l'estrazione di regole di associazione da basi di dati relazionali. In particolare, in (Meo et al. 1998a) e` descritto il linguaggio per esprimere interrogazioni per l'estrazione di conoscenza, in (Meo et al. 1998b) e` descritta l'architettura del sistema di interrogazione della base di dati e in (Baralis, Psaila 1997) un'interfaccia utente di tipo evoluto per specificare criteri di estrazione di regole di associazione.

Testo inglese

Classification tools learn from a set of example records or documents, the "training set", the distinguishing characteristics of two or more classes in the data. Each example in the training set is tagged with the name of the class to which it belongs. Classification algorithms build a model of the classes using the information in the examples. Once a model for a set of examples is built, it can be used to determine the class of "unknown" records or documents.

Classification has been widely studied in a number of research fields. In the case of structured data, proposed algorithms can represent the model of the classes using statistical models like linear/quadratic discriminant (James 1985), decision trees (Quinlan 1994, Shafer et al. 1996) or classification rules (Clark et al. 1995). An extensive review of common classification algorithm can be found in (Michie et al. 1994).

We consider in more detail decision tree classifiers, whose features seem more promising for semi-structured data classification. A decision tree classifier recurrently partitions the training set to build a decision tree in which:

  • internal nodes correspond to tests on the value of attributes;
  • leaves contain an estimate of the correct class for items that satisfy the conditions in the nodes from the leaf to the root of the tree.

An alternative representation of the model is a set of classification rules. In this case, the antecedent of the rule is a condition on the non-class attributes (i.e., the attributes that do not define the classes), while the consequent of the rule is the value of the class attribute (i.e., the attribute depending on whose values the classes are defined) corresponding to the condition. The conversion of a decision tree into a set of rules and vice versa is always possible.

In the field of information retrieval, the model of the classes has been defined by means of a number of techniques, which can be roughly divided in (a) techniques which exploit parsing, syntactic information, and natural language processing (e.g., in (Riloff 1994) frame activation is proposed and in (Papka, Allan 1998) recent developments of query expansion are discussed), (b) LSI (Latent Semantic Indexing) method, based on the description of documents by means of vectors, whose elements represent the frequency of terms in the document (Deerwester et al. 1990), (c) methods based on the use of neural networks (Scholtes 1991). A comparison of various methods is presented in (Schutze 1995) and in (Chen 1998).

An approach closer to the techniques used for structured data is presented in (Apte 1994), which suggests the use of classification rules to distinctively characterize different categories (classes) of documents; in this case, term dictionaries, possibly specialized for document families, are the features considered for classification.

In this research, we will exploit the experience previously gained in the definition of an environment for the extraction of association rules from a relational database. In particular, (Meo et al. 1998a) describes a language for expressing mining queries, (Meo et al. 1998b) presents the architecture of the database query interface and (Baralis, Psaila 1997) describes an advanced user interface for the specification of association rule extraction criteria.

2.2.a Riferimenti bibliografici

(Apte 1994) Apte C., Damerau F., Weiss S.M. "Automated Learning of Decision Rules for Text Categorization", ACM TOIS 12(3), 1994.

(Baralis, Psaila 1997) Baralis E., Psaila G. "Designing Templates for Mining Association Rules", JIIS vol. 9, 1997.

(Chen 1998) Chen A. "A Comparison of Regression, Neural Net, and Pattern Recognition Approaches to IR", Proc. of SIGIR'98 Int. Conf., 1998.

(Clark et al. 1995) Clark P., Niblett, T. "The CN2 induction algorithm", Machine Learning 3(4), 1995.

(Deerwester et al. 1990) Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. "Indexing by Latent Semantic Analysis", Journal of the American Society for Information Science, 41(6), 1990.

(James 1985) James M. "Classification Algorithms", Wiley 1985.

(Meo et al. 1998a) Meo R., Psaila G., Ceri S. "An Extension to SQL for Mining Association Rules" DMKD Journal, vol. 2, 1998.

(Meo et al. 1998b) Meo R., Psaila G., Ceri S. "A Tightly-Coupled Architecture for Data Mining", Proc. of ICDE-98 Int. Conf., 1998.

(Michie et al. 1994) Michie C., Spiegelhalter D. J., and C. C. Taylor "Machine Learning, Neural and Statistical Classification",
Ellis Horwood, 1994.

(Papka, Allan 1998) Papka R., Allan J "Document Classification using Multiword Features", Proc. of SIGIR'98 Int. Conf., 1998.

(Quinlan 1994) Quinlan R. "C4.5 Programs for Machine Learning", Los Altos, California: Morgan Kaufmann 1994.

(Riloff 1994) Riloff E., Lehnert W. "Information Extraction as a Basis for High-precision Text Classification", ACM TOIS 12(3), 1994.

(Scholtes 1991) Scholtes J.C. "Neural Nets and their Relevance for Information Retrieval", ITLI Prepublication CL-91-02, University of Amsterdam, 1991.

(Schutze 1995) Schutze H., Hull D., Pedersen, J. "Comparison of Classifiers and Document Representations for the Routing Problem", Proc. of SIGIR Int. Conf. 1995.

(Shafer et al. 1996) Shafer R., Agrawal R., Mehta M. "SPRINT: A Scalable Parallel Classifier for Data Mining", Proc. of the 22th VLDB Int. Conf., 1996.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'attivita` di questo progetto si colloca all'interno del Tema 1 (Analisi e Classificazione di Sorgenti di Dati in Ambiente Web) del progetto di ricerca Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web.

La classificazione e` il processo di selezione della categoria appropriata per un dato documento. Per esempio, permette di decidere in quale cartella inserire un messaggio di posta elettronica, oppure di quale argomento tratta un articolo o una pagina descritta mediante il linguaggio HTML.

L'attivita` di ricerca in questo progetto sara` dedicata alla classificazione di documenti descritti mediante il linguaggio XML. In particolare, a causa della natura parzialmente strutturata di questi documenti, si cerchera` di unire le tecniche classiche adottate nel settore dell'information retrieval per la classificazione di testo non strutturato e le tecniche adottate nel campo dell'estrazione di conoscenza (data mining) per la classificazione di dati strutturati.

Gli obiettivi principali di questo progetto sono:

  • l'identificazione dell'informazione rilevante da considerare per la classificazione (per esempio, la struttura dei DTD)
  • la definizione di un linguaggio per la configurazione del classificatore
  • la definizione di algoritmi di classificazione, basati sulla natura parzialmente strutturata dei documenti XML

Per raggiungere gli obiettivi prefissati, si articolera` il lavoro di ricerca in quattro fasi semestrali per una durata complessiva di due anni di attivita`.


Prima Fase

Come primo passo, saranno analizzate le caratteristiche piu` significative dei principali classificatori proposti in letteratura. Particolare attenzione sara` dedicata all'identificazione di tecniche (per esempio, la generazione di regole di classificazione) che producono risultati soddisfacenti sia per dati strutturati, sia per dati non strutturati. Infatti, le due tipologie di dati, a causa delle loro caratteristiche specifiche, presentano problematiche diverse per la classificazione, come descritto nella "Base di partenza scientifica".

In parallelo, saranno identificate famiglie di formati DTD (Document Type Definition) che possono produrre una definizione adeguata della struttura dei documenti. Questa struttura sara` poi sfruttata per la classificazione di documenti definiti mediante il linguaggio XML. Per l'individuazione delle famiglie di DTD, saranno anche considerati i risultati dei tentativi di standardizzazione della struttura di alcuni tipi di DTD attualmente in corso nel XML Working Group.

Infine, sara` definita un'architettura di riferimento per il sistema di classificazione oggetto della ricerca. L'architettura sara` descritta in un rapporto tecnico (T1.1-R1), che costituisce il prodotto di questa fase.


Risultati parziali attesi

T1.1-R1 rapporto tecnico che descrive l'architettura del prototipo di classificazione


Seconda Fase

La progettazione di un algoritmo di classificazione generalmente richiede una definizione precisa del contesto a cui esso deve essere applicato. In particolare, nel caso della classificazione di documenti descritti mediante il linguaggio XML, il contesto sara` fornito dalla famiglia di DTD a cui appartiene il particolare DTD su cui e` definito il documento considerato.

In questa fase si definira` un linguaggio di configurazione per il classificatore. La definizione del linguaggio avra` come obiettivi: (1) la definizione di un contesto applicativo, che vincoli l'applicazione entro confini precisi; (2) la possibilita` per l'utente di specificare in modo dichiarativo il problema di classificazione, evidenziando tutte le caratteristiche semantiche del problema specifico dell'utente. Si cerchera` un equilibrio tra il potere espressivo del linguaggio di configurazione e la sua complessita`, che ne ridurrebbe significativamente l'utilizzabilita` da parte di un utente non specializzato. Tra le opzioni per lo stile sintattico del linguaggio si considerera` la possibilita` di utilizzare la sintassi XML stessa. I costrutti del linguaggio di configurazione proposto saranno descritti in un rapporto tecnico (T1.2-R1) che costituisce il prodotto di questa fase.


Risultati parziali attesi

T1.2-R1 rapporto tecnico contenente la descrizione dei costrutti del linguaggio di configurazione


Terza Fase

In questa fase sara` definito un algoritmo di classificazione adatto per le caratteristiche specifiche dei dati XML. In particolare, l'algoritmo di classificazione sara` basato sulla conoscenza della struttura dei documenti da classificare, descritta dai loro DTD. Il ruolo del DTD di un documento puo` infatti essere paragonato al ruolo delle classi nella classificazione di dati strutturati. La definizione dell'algoritmo e`, inoltre, fortemente vincolata dalle funzionalita` offerte dal linguaggio di configurazione definito nella fase precedente. Le caratteristiche dell'algoritmo saranno descritte nel rapporto tecnico T1.3-R1, che costituisce il prodotto di questa fase.

Come attivita` parallela, saranno identificati insiemi di addestramento di pubblico dominio, che saranno utilizzati per verificare le prestazioni dell'algoritmo in dominii diversi.


Risultati parziali attesi

T1.3-R1 rapporto tecnico contenente la descrizione dell'algoritmo di classificazione


Quarta Fase

In questa fase sara` realizzato il prototipo software di un classificatore (prodotto T1.4-S1), basato sui risultati delle fasi precedenti. Il prototipo fornira` un'interfaccia di configurazione che permetta di specificare direttive nel linguaggio di configurazione definito nella fase 2. Tale interfaccia permettera` la selezione di varie modalita` operative dell'algoritmo, appropriate per differenti tipologie di documenti da classificare.

Le prestazioni del prototipo saranno verificate mediante varie basi documentali disponibili su Web. Le verifiche, pur non trascurando gli aspetti legati alla velocita` di classificazione, saranno prevalentemente rivolte all'accertamento della qualita` del processo di classificazione. In particolare, si fara` riferimento ai due parametri che permettono di valutare la qualita` del processo di classificazione di testi non strutturati proprio della disciplina dell'information retrieval: precisione (rapporto tra il numero di testi assegnati ed effettivamente appartenenti ad una classe e il numero totale di testi assegnati alla classe) e richiamo (rapporto tra il numero di testi assegnati ed effettivamente appartenenti ad una classe e il numero totale di testi appartenenti alla classe).

Le caratteristiche del prototipo saranno descritte nel rapporto tecnico T1.4-R2, insieme al risultato delle sperimentazioni condotte.

Come ultima attivita`, in collaborazione con le altre unita` coinvolte nel Tema 1 del progetto, saranno valutati l'applicabilita` dei risultati e i possibili sviluppi futuri dell'attivita` di ricerca svolta. I risultati di questa attivita` saranno descritti nel rapporto tecnico conclusivo T1.4-R5.


Risultati parziali attesi

T1.4-S1 prototipo software del sistema di classificazione e degli strumenti di supporto

T1.4-R2 rapporto tecnico contentente la descrizione del classificatore e delle sue sperimentazioni

T1.4-R5 rapporto tecnico conclusivo: sviluppi futuri della ricerca e applicabilita` dei risultati

Testo inglese

The research activity in this project is performed in the context of Theme 1 (Analysis and Classification of Data Sources in the Web Environment) of project Data-X: Management, Transformation and Exchange of Data in a Web Environment.

Classification is the process of deciding the appropriate category for a given document. Examples are deciding what folder an email message should be directed to, or what is the topic of an article or a page described by means of the HTML language.

The research activity in this project will be devoted to the classification of documents described by means of the XML language. In particular, due to the partially structured nature of these documents, we will try to join the classical techniques adopted in the information retrieval community for the classification of unstructured text with the techniques adopted in the data mining field for the classification of structured data.

The main objectives of this project are:

  • the identification of the relevant information to be considered for the classification (e.g., the structure of DTDs)
  • the definition of a language for the configuration of the classifier
  • the definition of classification algorithms, which consider the partially structured characteristics of XML documents

To meet the main above objectives, the research work will be articulated in four six months long phases, for a total duration of two years.


First Phase

As a first step, the characterizing features of the main classification systems proposed in previous work will be analyzed. Particular attention will be devoted to the identification of techniques (e.g., the generation of classification rules) that yield satisfactory results for both structured and unstructured data. Indeed, the two data typologies, owing to their specific features, are characterized by different classification problems, as discussed in the Scientific background" section.

In parallel, families of DTD (Document Type Definition) formats which can provide a suitable definition of the documents' structure will be identified. This structure will then be exploited for the classification of documents described by means of the XML language. In order to identify DTD families, the results of the effort to standardize the structure of some types of DTD currently in progress in the XML Working Group will be considered.

Finally, a reference architecture for our classification system will be defined. The architecture will be described in a technical report (T1.1-R1), which is the deliverable of this phase.


Deliverables of this phase

T1.1-R1 technical report describing the architecture of the classification prototype


Second Phase

The design of a classification algorithm generally requires a precise definition of the context to which it must be applied. In particular, in the case of XML documents, the context is provided by the DTD family to which the specific DTD of the document belongs.

In this phase we will define a configuration language for the classifier. The definition of a configuration language aims to: (1) define a precise applicative framework, that constraints the application context into defined and well understood boundaries; (2) allow the user to declaratively specify the classification problem, evidencing all the semantic features that characterize the particular user's problem. The design of the language will seek a balance between its expressive power and its complexity, which would significantly reduce its usability for a non experienced user. The option of using XML syntax itself for the syntactic style of the language will be considered. The constructs of the proposed configuration language will be described in a technical report (T1.2-R1) that is the deliverable of this phase.


Deliverables of this phase

T1.2-R1 technical report describing the constructs of the configuration language


Third Phase

In this phase, a classification algorithm tailored to the specific features of XML data will be defined. In particular, the classification algorithm will be based on the knowledge of the structure of documents to be classified, which is described in their DTD. The role of a document's DTD can be compared to the role of classes in the classification of structured data. Furthermore, the definition of the algorithm is strongly constrained by the functionalities provided by the configuration language defined in the former phase. The characteristic features of the algorithm will be described in technical report T1.3-R1, which is the deliverable of this phase.

In parallel, appropriate publicly available training sets will be identified, in order to be able to test the performance of the algorithm on different domains.


Deliverables of this phase

T1.3-R1 technical report with the description of the classification algorithm


Fourth Phase

In this phase, based on the results of the previous phases, the software prototype of a classification system (product T1.4-S1) will be implemented. The prototype will provide a configuration interface that will allow the specification of directives of the configuration language defined in Phase 2. This interface will allow the selection of various operating modes for the algorithm, each one appropriate for different typologies of documents to classify.

The performance of the prototype will be verified by means of several different document bases available on the Web. The tests, while not neglecting the issue of classification speed, will be mainly devoted to the verification of the classification process quality. In particular, we will consider the two parameters which allow the evaluation of the classification process quality for unstructured text in the information retrieval field: precision (ratio between the number of documents assigned and actually belonging to the class and the total number of documents assigned to the class) and recall (ratio between the number of documents assigned and actually belonging to the class and the total number of documents belonging to the class).

The features of the prototype, together with the result of the experiments will be described in technical report T1.4-R2.
As a last activity, in cooperation with the other units involved in Theme 1 of the Data-X project, the applicability of the obtained results will be evaluated and the future developments of the research activity will be discussed. The results of this activity will be described in the conclusive technical report T1.4-R5.


Deliverables of this phase

T1.4-S1 software prototype of the classification system and relative supporting tool

T1.4-R2 technical report with the description of the classifier and its experiments

T1.4-R4 final report: further research and applicability of the results


2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  1998Workstation Sun Ultra10, 4.3GB disco, 256MB RAM  Workstation Sun Ultra10, 4.3GB disk, 256MB RAM 
2.  1998PC IBM, Pentium II, 256MB RAM, 6.4GB disco  PC IBM, Pentium II, 256MB RAM, 6.4GB disk 
3.  1998PC IBM, Pentium II, 256MB RAM, 6.4GB disco  PC IBM, Pentium II, 256MB RAM, 6.4GB disk 
4.     
5.     


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 20  10.329  1 Personal computer di fascia alta, 1 Workstation Unix di fascia media  1 Personal Computer, 1 Unix Workstation 
Grandi Attrezzature        
Materiale di consumo e funzionamento 10  5.165  Spese generali di funzionamento, acquisto di materiale non inventariabile (es. software)  General expenses, consumables, software 
Spese per calcolo ed elaborazione dati        
Personale a contratto 18  9.296  Due neolaureati per complessivi 9 mesi  Two persons that just received the Laurea degree for a total of nine months 
Servizi esterni 2.582  Sviluppo di moduli software  Software modules development 
Missioni 25  12.911  Partecipazione alle riunioni periodiche del progetto, presentazione di lavori a conferenze rilevanti nel settore  Traveling expenses for project meetings and paper presentation at project related conferences 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 78  40.284 
 
Costo minimo per garantire la possibilità di verifica dei risultati 62  32.020 
 
Fondi disponibili (RD) 24  12.395 
 
Fondi acquisibili (RA) 0   
 
Cofinanziamento richiesto al MURST 54  27.889 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università          
Dipartimento          
MURST (ex 40%)          
CNR          
Unione Europea          
Altro 1997   24  12.395     
TOTAL   24  12.395     

4.1.1 Altro

Contratto con Sema Group per un importo pari a 100 milioni

4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL        

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 01/04/1999 19:40:44