Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

Il Manuale

     

Segue
Parte 6. I linguaggi di codifica

 

 indietro

continua

6.3 La Text Encoding Initiative (TEI) [14]

L’esigenza avvertita in campo informatico umanistico di rispondere adeguatamente ai problemi di rappresentazione informatica del materiale testuale e documentario ha condotto alla definizione di una serie di raccomandazioni, accettate a livello internazionale, per la rappresentazione dei testi in MRF; tali direttive garantiscono la validità scientifica della codifica e, soprattutto, l’intercambiabilità e la portabilità dei testi in formato elettronico.

A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato che mettesse ordine nell’intricata congerie di modelli e linguaggi di rappresentazione dell’informazione testuale in formato elettronico. Questo progetto è stato denominato Text Encoding Initiative (TEI) e ad esso hanno attivamente collaborato un gruppo di studiosi provenienti da differenti paesi.

La finalità della TEI è di definire uno standard di codifica, specificatamente orientato alla gestione dei dati umanistico-letterari, e realizzare una normalizzazione dei formati di memorizzazione dell’informazione testuale, al fine di consentire l’interscambio dei documenti [15] . Per conseguire tali obiettivi i progettisti della TEI hanno assunto come linguaggio di base per la descrizione dei documenti l’SGML e come set di caratteri quello suggerito dalla stessa sintassi concreta di riferimento dello standard e cioè l’ISO 646. Il lavoro delle commissioni a partire dal 1989 ha condotto alla realizzazione di una vasta e complessa Document Type Definition, le cui caratteristiche sono state per la prima volta presentate nella pubblicazione uscita nel 1994 col titolo Guidelines for Electronic Text Encoding and Interchange (TEI P3). La struttura della DTD è stata in seguito rivista, ma la versione a tutt’oggi disponibile può considerarsi quella definitiva.

I principi che hanno orientato la commissione di sviluppo della TEI nel definire la struttura della DTD sono basati sui fondamenti teorici dell’SGML, ovvero sulla predilezione per un markup di tipo dichiarativo piuttosto che procedurale.

Il modello descrittivo dei testi previsto dalla TEI si fonda su di una sostanziale formalizzazione delle convenzioni vigenti nell’ambito dell’organizzazione strutturale dei documenti testuali, convenzioni che sono state codificate fino al punto di divenire un vero e proprio schema argomentativo (trattasi della divisione in parti, capitoli, paragrafi ecc.).

La predilezione per una codifica di tipo dichiarativo è stata rispettata nella maggior parte dei casi, pur considerando che essa talora implica un apporto assolutamente soggettivo dello studioso-codificatore, che necessita di interpretare la funzione delle varie componenti strutturali tipografiche, o manoscritte, per essere in grado di impiegare in modo adeguato i marcatori per gli elementi previsti nella DTD della TEI. Tuttavia sono previsti anche marcatori di tipo procedurale, utilizzabili quando la scelta di una codifica di tipo dichiarativo introdurrebbe seri problemi interpretativi, o quando le necessità dell’indagine automatizzata richiedono una forte aderenza del testo elettronico al suo originale cartaceo. Sono anche previste molte strutture adeguate alla codifica di fenomeni testuali complessi, quali la trascrizione di fonti manoscritte, la pratica ecdotica, l’analisi linguistica e strutturale del testo, la creazione di corpus, nonché la realizzazione di complesse strutture ipertestuali.

La TEI definisce uno schema di carattere generale, essenzialmente orientato all’ambito umanistico, ma non rigido. E’ infatti da rilevare come gli elementi previsti dalla TEI e definiti nella DTD siano oltre quattrocento, come molte caratteristiche strutturali di un testo possano essere agevolmente sottoposte a differenti tipi di codifica, infine come lo schema preveda possibilità di modifiche locali e di estensioni, per adeguarsi ad eventuali esigenze di memorizzazione testuale. Al fine di raggiungere questi obiettivi, e cioè consentire un universale applicabilità, si è optato per una divisione della DTD in molteplici frammenti, ognuno impiegabile a seconda della tipologia testuale da indagare (testo in prosa, testo poetico, testo drammatico, fonte manoscritta) o a seconda degli scopi di ricerca (codifica a fini editoriali, a fini di analisi linguistica, tematica, ecc.). L’utente che attua la codifica ha dunque la possibilità di riferirsi al frammento che lo interessa, includendo, all’inizio del documento elettronico, opportune dichiarazioni.

E’ stato, a questo scopo, elaborato un sottoinsieme della TEI, denominato TEI lite, che dovrebbe consentire la diffusione del progetto di codifica, senza impegnare l’utenza ad apprendere lo schema nella sua interezza. Trattasi infatti di una versione semplificata dell’intero schema di codifica definito dalla TEI, che permette di facilitare la realizzazione di testi in formato elettronico, senza richiedere lo studio dell’intera DTD e consentendo quindi la creazione di documenti TEI-compliant, cioè compatibili con l’intero schema.

Scendendo nello specifico, diremo che ogni testo codificato conformemente alle specifiche della TEI è costituito da due parti: un TEI header (codificato con l’elemento <teiHeader>), contenente le informazioni editoriali concernenti il documento elettronico, e un TEI text (codificato con l’elemento <text>) contenente la trascrizione codificata del testo in versione integrale.

Ogni TEI header consta di quattro parti, una delle quali deve necessariamente ricorrere in ogni testo codificato secondo le raccomandazioni della TEI, ed è l’elemento <fileDesc>, mentre le altre tre, <encodingDesc>, <profileDesc>, <revisionDesc>, sono opzionali.  Diremo che nella “testata” della TEI sono raccolte tutte le informazioni utili in sede di descrizione bibliografica del testo elettronico e del suo esemplare originale di riferimento. Queste notizie possono definirsi come metadata, cioè meta-informazioni o informazioni su informazioni.    

L’elemento <fileDesc> raccoglie tutte le notizie editoriali relative alla descrizione del testo elettronico. E’ una sorta di frontespizio elettronico in cui vengono raccolte tutte le informazioni bibliografiche relative al documento in oggetto. Il primo elemento è il titolo dell’opera [16] (il cui marcatore è <titleStmt>) generalmente accompagnato dal nome dell’autore della versione elettronica del testo (la cui tag corrispondente è <principal>) che viene graficamente rappresentato come un sottelemento del titolo [17] . Secondo elemento sono le note sulla pubblicazione elettronica (<publicationStmt>): il nome dell’editore o della casa editrice, eventualmente l’indirizzo, i dati relativi al distributore, lo status dell’opera (generalmente indicato solo se la versione elettronica si trova ancora in fase di preparazione) e cioè se  la versione elettronica del documento è disponibile per la consultazione o meno. Il terzo elemento (<sourceDesc>) del <fileDesc> è relativo alla descrizione bibliografica del testo o dei testi originali impiegati per realizzare la versione elettronica (dai quali cioè è derivato il formato elettronico dell’opera).

Dopo l’elemento <fileDesc>, la TEI header include l’elemento <encodingDesc>. Il proposito di questo elemento è di definire le metodologie impiegate all’atto della codifica, cioè di specificare metodi e principi che hanno sovrinteso alla trascrizione elettronica del testo.

Segue l’elemento <profileDesc>, il cui obiettivo è di consentire di fornire una dettagliata descrizione degli aspetti non-bibliografici del testo, per esempio, nel caso dei manoscritti, il tipo di scrittura impiegata, la presenza di una o più mani scriventi.

Per concludere, l’ultimo elemento del <fileDesc> è il <revisionDesc>, il cui scopo è di fornire informazioni relative alla storia delle modifiche e delle revisioni che il documento elettronico ha subito.   

Come affermato in precedenza, ogni documento conforme alla TEI deve essere costituito da due elementi: un TEI header che, come descritto, fornisce informazioni bibliografiche e non relative al documento e un TEI text che è il testo vero e proprio. L’elemento text si divide, a sua volta, in quattro elementi: <front> (opzionale), <body> (obbligatorio), <group> (obbligatorio) e <back> (opzionale).

<Front> e <back> sono necessari qualora il documento riporti delle informazioni, all’inizio o alla fine del testo vero e proprio (per esempio un indice o un titolo nella pagina), delle quali si necessita operare una codifica. <Body> è l’elemento che introduce il corpo del testo. <Group> è da impiegarsi nel caso di una serie di testi facenti parte della medesima pubblicazione, ognuno dotato della propria individualità (ognuno con un proprio front, body e back) [18] .

All’interno dell’elemento <body> ci saranno ovviamente una serie di suddivisioni ulteriori, necessarie a definire la struttura interna del testo indagato; suddivisioni che evidenzieranno la scansione in sezioni <div> di vario livello (div0, div1, div2), in paragrafi <p>se necessario in linee <l>, interruzioni di pagina <pb>, ecc. Saranno necessari marcatori differenti a seconda del tipo di testo codificato; come rilevato la TEI consente infatti di impiegare un set di marcatori ad hoc per la tipologia del testo in esame. Ogni fenomeno può essere infatti codificato: dai nomi di persona ai nomi di luogo, alle indicazioni cronologiche; sono gli obiettivi della codifica che orienteranno verso la scelta del set dei marcatori.

E’ chiaro che la trattazione relativa alla delineazione delle caratteristiche di questa iniziativa non può dirsi sufficiente, in quanto una presentazione complessiva e totale richiederebbe di dedicare alla TEI una pubblicazione a sé stante. Si ritiene di aver comunque presentato quelli che sono gli aspetti più significativi di questo progetto che, per la sua complessità e diffusione, unitamente alla sua origine ed evoluzione in ambito umanistico, è ritenuto essere, da parte degli studiosi di informatica umanistica, il più valido strumento di codifica per la creazione di testi elettronici e quindi l’edificazione di banche dati testuali di ampio respiro [19] .

Con una precisazione.

Esiste infatti un limite sostanziale nel modello di codifica proposto dalla TEI, limite che inficia la realizzazione di un modello testuale adeguato alle necessità di analisi e di interpretazione [20] .

Ripartiamo dalla nozione di testo. Si è visto che la forma che l’informazione testuale deve assumere per essere sottoposta a procedimenti di elaborazione automatica è quella della sequenza di caratteri.

La nozione di testo così intesa (sequenza o stringa di caratteri) è molto differente da quella del testo inteso in termini letterari. In ambito informatico, per testo non si intende il materiale letterario nella forma in cui è stato scritto originariamente dall’autore, ma un’informazione codificata in forma di stringhe di caratteri, ossia una rappresentazione dell’informazione che consiste esclusivamente di caratteri. Una simile forma di rappresentazione non cattura, evidentemente, che una piccola parte dell’informazione testuale: al testo inteso come dato costituito dalla sola successione dei caratteri, occorre aggiungere esplicitamente, attraverso l’inserimento di marche o segni convenzionali, tutta l’informazione testuale che non è possibile rappresentare in questa forma.

Abbiamo visto come lo scopo della codifica del testo, e l’obiettivo della TEI, sia esattamente questo: definire attraverso l’ausilio di una serie di marcatori la struttura logica degli oggetti testuali, strutturando cioè i dati testuali come informazione.

Ma se si concepisce la codifica del testo come una rappresentazione di quell’informazione che si aggiunge al testo vero e proprio, e che eccede da esso, allora ci si trova di fronte ad una sostanziale ambiguità: da un lato si intende il testo come oggetto letterario, dall’altro come sequenza di caratteri; così inevitabilmente si scambia il testo con la sua rappresentazione, il testo con il documento.

Questo è ciò che essenzialmente limita il modello computazionale assunto dalla TEI e che nasce dall’ambiguità della nozione di codifica, lasciata sostanzialmente irrisolta.

La forma di rappresentazione e il conseguente modello del testo assunti dalla TEI, se ammettono infatti la possibilità di rappresentare strutture diverse dello stesso testo, non riescono a riunirle in un’unica e coerente forma di rappresentazione.

Ma torniamo al modello del testo assunto dalle norme di codifica stabilite dalla TEI. L’implicita assunzione di questo modello dipende dalla scelta dello SGML come linguaggio base. L’SGML definisce un documento in termini strutturali come una gerarchia ordinata di oggetti di contenuto testuale. La struttura è gerarchica, perché oggetti di tipo diverso sono contenuti l’uno nell’altro, come in uno schema di classificazione in cui classi più generali comprendono classi più particolari, o come in una struttura ad albero; ed è ordinata, perché tra gli oggetti c’è una relazione lineare e dati due oggetti qualsiasi contenuti in un documento si può sempre affermare che l’uno viene prima dell’altro.

Questa nozione di testo non tiene però conto che talvolta lo stesso documento si conforma a diverse strutture sovrapposte, le quali non possono essere inserite nella stessa struttura gerarchica di modo che la sua elaborazione varia a seconda della particolare struttura considerata; né può tenere in considerazione il fatto che esistono relazioni strutturali di tipo non gerarchico. Assumendo l’SGML come base per la definizione delle norme e dei linguaggi di codifica, la TEI assume implicitamente questo modello strutturale come modello fondamentale di rappresentazione del testo e vincola di conseguenza la forma di rappresentazione del testo ad una struttura di dati affatto particolare, che non permette di riunire in una singola rappresentazione coerente modelli strutturali diversi e alla quale non pare così applicabile un modello computazionale pienamente adeguato alle necessità dell’analisi e dell’interpretazione del testo.

La struttura del testo nella TEI viene dunque identificata con quella particolare struttura della sua forma di rappresentazione che meglio si presta alle necessità della manipolazione dei documenti; ma il vantaggio dell’elaborazione automatica consiste proprio nello svincolare la rappresentazione del testo dal modello strutturale del documento stampato.

 indietro

continua

 



 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

[14] Cfr. ACH/ACL/ALLC, Guidelines for Electronic Text Encoding and Interchange (TEI P3), a cura di C. M. Sperberg Mc. Queen e L. Burnard, Chicago, 1994. Trattasi della pubblicazione scelta come punto di riferimento per l’intera trattazione relativa alla delineazione delle caratteristiche della TEI. Per quanto riguarda le risorse sul web si consiglia: il sito del CRILET per la TEI Lite in italiano http://crilet.scu.
uniroma1.it/ricerca
/SGML-XML/teiu5-it
/teiu5-it.html
e il  sito ufficiale TEI 
http://www.tei-c.org/. Interessante poi visitare il sito dell'Università della Virginia all'indirizzo: http://etext.lib.
virginia.edu/tei/
uvatei.html
.
E’ ora disponibile, dal sito ufficiale della TEI, la versione TEI P4: http://www.tei-c.org/P4X

[15] ".....More specific design goals of the TEI have been that the Guidelines should: provide a standard format for data interchange; provide guidance for encoding of texts in this format; support the encoding of all kinds of features of all kinds of texts studied by researches; be application independent." ACH/ACL/ALLC, Guidelines for Electronic Text Encoding and Interchange (TEI P3), a cura di C. M. Sperberg Mc. Queen e L. Burnard, Chicago, 1994.

[16] E’ sempre consigliabile specificare che il file rappresenta una versione elettronica del documento in questione: invece delle Novelle Porrettane sarebbe più corretto dire “Trascrizione elettronica delle Novelle Porrettane”.

[17] La trascrizione risulterebbe:

<fileDesc>
  <titleStmt>

   <title>Trascrizione elettronica delle Novelle Porrettane </title>
   <principal>Francesca Tomasi</principal>

</title>
  </fileDesc>

[18] La struttura generale di un testo (un unico testo, non un corpus) codificato conformemente alla TEI risulterebbe dunque:

<Tei.2> [start tag della TEI]

<teiHeader> [contenente tutte le informazioni relative]  </teiHeader>

<text>  [start tag
del testo]    </text>

<front>  [dati che precedono il corpo del documento] </front>

<body>  
[corpo del testo]  
  </body>

<back>  [dati che seguono il corpo del documento]  </back>

</text> [end tag del testo]

</Tei.2> 
[end tag della Tei]

[19] Per banca dati testuali (o database testuali) si intende un archivio su supporto informatico che raccoglie un insieme di testi in MRF. Tali archivi elettronici si possono dividere in due tipologie, sulla base delle modalità di accesso e delle pratiche di consultazione dei dati in essi contenuti. Avremo basi di dati accessibili a livello “locale”, dove il supporto più diffuso ai fini della distribuzione è il CD-ROM, e dove all’utente è consentita la sola consultazione dei testi ivi memorizzati e banche dati on-line, accessibili da stazioni di lavoro “remote” rispetto all’archivio, disponibili in rete e quindi consultabili tramite Internet, e che possono essere dotate di strumenti di text-processing e di information retrieval.

[20] Si allude alla distinzione tra testo e documento all’atto della realizzazione di un modello computazionale adeguato.

 

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica