|
Segue
Parte 6. I linguaggi
di codifica
6.3 La
Text Encoding Initiative (TEI) [14]
Lesigenza avvertita
in campo informatico umanistico di rispondere
adeguatamente ai problemi di rappresentazione
informatica del materiale testuale e documentario
ha condotto alla definizione di una serie
di raccomandazioni, accettate a livello
internazionale, per la rappresentazione
dei testi in MRF; tali direttive garantiscono
la validità scientifica della codifica e,
soprattutto, lintercambiabilità e
la portabilità dei testi in formato elettronico.
A partire dal 1987 le tre
maggiori associazioni mondiali di studiosi
di scienze umane attraverso metodologie
informatiche, la Association for Computers
and the Humanities (ACH) la Association
for Computational Linguistics (ACL)
e la Association for Literary and Linguistic
Computing (ALLC) hanno avviato un progetto
internazionale per sviluppare un modello
di codifica normalizzato che mettesse ordine
nellintricata congerie di modelli
e linguaggi di rappresentazione dellinformazione
testuale in formato elettronico. Questo
progetto è stato denominato Text Encoding
Initiative (TEI) e ad esso hanno attivamente
collaborato un gruppo di studiosi provenienti
da differenti paesi.
La finalità della TEI è di
definire uno standard di codifica, specificatamente
orientato alla gestione dei dati umanistico-letterari,
e realizzare una normalizzazione dei formati
di memorizzazione dellinformazione
testuale, al fine di consentire linterscambio
dei documenti [15] . Per conseguire tali obiettivi i progettisti
della TEI hanno assunto come linguaggio
di base per la descrizione dei documenti
lSGML e come set di caratteri quello
suggerito dalla stessa sintassi concreta
di riferimento dello standard e cioè lISO
646. Il lavoro delle commissioni a partire
dal 1989 ha condotto alla realizzazione
di una vasta e complessa Document Type
Definition, le cui caratteristiche sono
state per la prima volta presentate nella
pubblicazione uscita nel 1994 col titolo
Guidelines for Electronic Text Encoding
and Interchange (TEI P3). La struttura
della DTD è stata in seguito rivista, ma
la versione a tuttoggi disponibile
può considerarsi quella definitiva.
I principi che hanno orientato
la commissione di sviluppo della TEI nel
definire la struttura della DTD sono basati
sui fondamenti teorici dellSGML, ovvero
sulla predilezione per un markup
di tipo dichiarativo piuttosto che procedurale.
Il modello descrittivo dei
testi previsto dalla TEI si fonda su di
una sostanziale formalizzazione delle convenzioni
vigenti nellambito dellorganizzazione
strutturale dei documenti testuali, convenzioni
che sono state codificate fino al punto
di divenire un vero e proprio schema argomentativo
(trattasi della divisione in parti, capitoli,
paragrafi ecc.).
La predilezione per una codifica
di tipo dichiarativo è stata rispettata
nella maggior parte dei casi, pur considerando
che essa talora implica un apporto assolutamente
soggettivo dello studioso-codificatore,
che necessita di interpretare la funzione
delle varie componenti strutturali tipografiche,
o manoscritte, per essere in grado di impiegare
in modo adeguato i marcatori per gli elementi
previsti nella DTD della TEI. Tuttavia sono
previsti anche marcatori di tipo procedurale,
utilizzabili quando la scelta di una codifica
di tipo dichiarativo introdurrebbe seri
problemi interpretativi, o quando le necessità
dellindagine automatizzata richiedono
una forte aderenza del testo elettronico
al suo originale cartaceo. Sono anche previste
molte strutture adeguate alla codifica di
fenomeni testuali complessi, quali la trascrizione
di fonti manoscritte, la pratica ecdotica,
lanalisi linguistica e strutturale
del testo, la creazione di corpus, nonché
la realizzazione di complesse strutture
ipertestuali.
La TEI definisce uno schema
di carattere generale, essenzialmente orientato
allambito umanistico, ma non rigido.
E infatti da rilevare come gli elementi
previsti dalla TEI e definiti nella DTD
siano oltre quattrocento, come molte caratteristiche
strutturali di un testo possano essere agevolmente
sottoposte a differenti tipi di codifica,
infine come lo schema preveda possibilità
di modifiche locali e di estensioni, per
adeguarsi ad eventuali esigenze di memorizzazione
testuale. Al fine di raggiungere questi
obiettivi, e cioè consentire un universale
applicabilità, si è optato per una divisione
della DTD in molteplici frammenti, ognuno
impiegabile a seconda della tipologia testuale
da indagare (testo in prosa, testo poetico,
testo drammatico, fonte manoscritta) o a
seconda degli scopi di ricerca (codifica
a fini editoriali, a fini di analisi linguistica,
tematica, ecc.). Lutente che attua
la codifica ha dunque la possibilità di
riferirsi al frammento che lo interessa,
includendo, allinizio del documento
elettronico, opportune dichiarazioni.
E stato, a questo scopo,
elaborato un sottoinsieme della TEI, denominato
TEI lite, che dovrebbe consentire
la diffusione del progetto di codifica,
senza impegnare lutenza ad apprendere
lo schema nella sua interezza. Trattasi
infatti di una versione semplificata dellintero
schema di codifica definito dalla TEI, che
permette di facilitare la realizzazione
di testi in formato elettronico, senza richiedere
lo studio dellintera DTD e consentendo
quindi la creazione di documenti TEI-compliant,
cioè compatibili con lintero schema.
Scendendo nello specifico,
diremo che ogni testo codificato conformemente
alle specifiche della TEI è costituito da
due parti: un TEI header (codificato
con lelemento <teiHeader>),
contenente le informazioni editoriali concernenti
il documento elettronico, e un TEI text
(codificato con lelemento <text>)
contenente la trascrizione codificata del
testo in versione integrale.
Ogni TEI header consta
di quattro parti, una delle quali deve necessariamente
ricorrere in ogni testo codificato secondo
le raccomandazioni della TEI, ed è lelemento
<fileDesc>, mentre le altre
tre, <encodingDesc>, <profileDesc>,
<revisionDesc>, sono opzionali.
Diremo che nella testata della
TEI sono raccolte tutte le informazioni
utili in sede di descrizione bibliografica
del testo elettronico e del suo esemplare
originale di riferimento. Queste notizie
possono definirsi come metadata,
cioè meta-informazioni o informazioni su
informazioni.
Lelemento <fileDesc>
raccoglie tutte le notizie editoriali relative
alla descrizione del testo elettronico.
E una sorta di frontespizio elettronico
in cui vengono raccolte tutte le informazioni
bibliografiche relative al documento in
oggetto. Il primo elemento è il titolo dellopera [16] (il cui marcatore è <titleStmt>)
generalmente accompagnato dal nome dellautore
della versione elettronica del testo (la
cui tag corrispondente è <principal>)
che viene graficamente rappresentato come
un sottelemento del titolo [17] . Secondo elemento sono le note sulla
pubblicazione elettronica (<publicationStmt>):
il nome delleditore o della casa editrice,
eventualmente lindirizzo, i dati relativi
al distributore, lo status dellopera
(generalmente indicato solo se la versione
elettronica si trova ancora in fase di preparazione)
e cioè se la versione elettronica del documento
è disponibile per la consultazione o meno.
Il terzo elemento (<sourceDesc>)
del <fileDesc> è relativo alla
descrizione bibliografica del testo o dei
testi originali impiegati per realizzare
la versione elettronica (dai quali cioè
è derivato il formato elettronico dellopera).
Dopo lelemento <fileDesc>,
la TEI header include lelemento
<encodingDesc>. Il proposito
di questo elemento è di definire le metodologie
impiegate allatto della codifica,
cioè di specificare metodi e principi che
hanno sovrinteso alla trascrizione elettronica
del testo.
Segue lelemento <profileDesc>,
il cui obiettivo è di consentire di fornire
una dettagliata descrizione degli aspetti
non-bibliografici del testo, per esempio,
nel caso dei manoscritti, il tipo di scrittura
impiegata, la presenza di una o più mani
scriventi.
Per concludere, lultimo
elemento del <fileDesc> è il
<revisionDesc>, il cui scopo
è di fornire informazioni relative alla
storia delle modifiche e delle revisioni
che il documento elettronico ha subito.
Come affermato in precedenza,
ogni documento conforme alla TEI deve essere
costituito da due elementi: un TEI header
che, come descritto, fornisce informazioni
bibliografiche e non relative al documento
e un TEI text che è il testo vero
e proprio. Lelemento text si
divide, a sua volta, in quattro elementi:
<front> (opzionale), <body>
(obbligatorio), <group> (obbligatorio)
e <back> (opzionale).
<Front> e <back>
sono necessari qualora il documento riporti
delle informazioni, allinizio o alla
fine del testo vero e proprio (per esempio
un indice o un titolo nella pagina), delle
quali si necessita operare una codifica.
<Body> è lelemento che
introduce il corpo del testo. <Group>
è da impiegarsi nel caso di una serie di
testi facenti parte della medesima pubblicazione,
ognuno dotato della propria individualità
(ognuno con un proprio front, body e back)
[18] .
Allinterno dellelemento
<body> ci saranno ovviamente
una serie di suddivisioni ulteriori, necessarie
a definire la struttura interna del testo
indagato; suddivisioni che evidenzieranno
la scansione in sezioni <div> di vario
livello (div0, div1, div2), in paragrafi
<p>se necessario in linee <l>,
interruzioni di pagina <pb>, ecc.
Saranno necessari marcatori differenti a
seconda del tipo di testo codificato; come
rilevato la TEI consente infatti di impiegare
un set di marcatori ad hoc per la tipologia
del testo in esame. Ogni fenomeno può essere
infatti codificato: dai nomi di persona
ai nomi di luogo, alle indicazioni cronologiche;
sono gli obiettivi della codifica che orienteranno
verso la scelta del set dei marcatori.
E chiaro che la trattazione
relativa alla delineazione delle caratteristiche
di questa iniziativa non può dirsi sufficiente,
in quanto una presentazione complessiva
e totale richiederebbe di dedicare alla
TEI una pubblicazione a sé stante. Si ritiene
di aver comunque presentato quelli che sono
gli aspetti più significativi di questo
progetto che, per la sua complessità e diffusione,
unitamente alla sua origine ed evoluzione
in ambito umanistico, è ritenuto essere,
da parte degli studiosi di informatica umanistica,
il più valido strumento di codifica per
la creazione di testi elettronici e quindi
ledificazione di banche dati testuali
di ampio respiro
[19] .
Con una precisazione.
Esiste infatti un limite sostanziale
nel modello di codifica proposto dalla TEI,
limite che inficia la realizzazione di un
modello testuale adeguato alle necessità
di analisi e di interpretazione
[20] .
Ripartiamo dalla nozione di
testo. Si è visto che la forma che linformazione
testuale deve assumere per essere sottoposta
a procedimenti di elaborazione automatica
è quella della sequenza di caratteri.
La nozione di testo così intesa
(sequenza o stringa di caratteri) è molto
differente da quella del testo inteso in
termini letterari. In ambito informatico,
per testo non si intende il materiale letterario
nella forma in cui è stato scritto originariamente
dallautore, ma uninformazione
codificata in forma di stringhe di caratteri,
ossia una rappresentazione dellinformazione
che consiste esclusivamente di caratteri.
Una simile forma di rappresentazione non
cattura, evidentemente, che una piccola
parte dellinformazione testuale: al
testo inteso come dato costituito dalla
sola successione dei caratteri, occorre
aggiungere esplicitamente, attraverso linserimento
di marche o segni convenzionali, tutta linformazione
testuale che non è possibile rappresentare
in questa forma.
Abbiamo visto come lo scopo
della codifica del testo, e lobiettivo
della TEI, sia esattamente questo: definire
attraverso lausilio di una serie di
marcatori la struttura logica degli oggetti
testuali, strutturando cioè i dati testuali
come informazione.
Ma se si concepisce la codifica
del testo come una rappresentazione di quellinformazione
che si aggiunge al testo vero e proprio,
e che eccede da esso, allora ci si trova
di fronte ad una sostanziale ambiguità:
da un lato si intende il testo come oggetto
letterario, dallaltro come sequenza
di caratteri; così inevitabilmente si scambia
il testo con la sua rappresentazione, il
testo con il documento.
Questo è ciò che essenzialmente
limita il modello computazionale assunto
dalla TEI e che nasce dallambiguità
della nozione di codifica, lasciata sostanzialmente
irrisolta.
La forma di rappresentazione
e il conseguente modello del testo assunti
dalla TEI, se ammettono infatti la possibilità
di rappresentare strutture diverse dello
stesso testo, non riescono a riunirle in
ununica e coerente forma di rappresentazione.
Ma torniamo al modello del
testo assunto dalle norme di codifica stabilite
dalla TEI. Limplicita assunzione di
questo modello dipende dalla scelta dello
SGML come linguaggio base. LSGML definisce
un documento in termini strutturali come
una gerarchia ordinata di oggetti di contenuto
testuale. La struttura è gerarchica,
perché oggetti di tipo diverso sono contenuti
luno nellaltro, come in uno
schema di classificazione in cui classi
più generali comprendono classi più particolari,
o come in una struttura ad albero; ed è
ordinata, perché tra gli oggetti cè
una relazione lineare e dati due oggetti
qualsiasi contenuti in un documento si può
sempre affermare che luno viene prima
dellaltro.
Questa nozione di testo non
tiene però conto che talvolta lo stesso
documento si conforma a diverse strutture
sovrapposte, le quali non possono essere
inserite nella stessa struttura gerarchica
di modo che la sua elaborazione varia a
seconda della particolare struttura considerata;
né può tenere in considerazione il fatto
che esistono relazioni strutturali di tipo
non gerarchico. Assumendo lSGML come
base per la definizione delle norme e dei
linguaggi di codifica, la TEI assume implicitamente
questo modello strutturale come modello
fondamentale di rappresentazione del testo
e vincola di conseguenza la forma di rappresentazione
del testo ad una struttura di dati affatto
particolare, che non permette di riunire
in una singola rappresentazione coerente
modelli strutturali diversi e alla quale
non pare così applicabile un modello computazionale
pienamente adeguato alle necessità dellanalisi
e dellinterpretazione del testo.
La struttura del testo nella
TEI viene dunque identificata con quella
particolare struttura della sua forma di
rappresentazione che meglio si presta alle
necessità della manipolazione dei documenti;
ma il vantaggio dellelaborazione automatica
consiste proprio nello svincolare la rappresentazione
del testo dal modello strutturale
del documento stampato.
|