|
indietro
Segue
Parte 4 - IL TESTO ELETTRONICO
Naturalmente, per poter leggere correttamente
un testo scritto usando una certa tabella
è necessario disporre di un font
che contenga anche i caratteri di quella
tabella; se esso viene letto usandone una
diversa, tutti i caratteri alti vengono
sostituiti dai corrispondenti nella nuova
tabella, così che il testo non risulta
più correttamente leggibile; da questo
deriva la necessità di 'dichiarare'
in qualche modo quale sia il set di caratteri
utilizzato.
Per superare questo inconveniente, nel 1991
è stato proposto un sistema di caratteri,
chiamato Unicode,
che, essendo codificato con 16 bit, ne comprende
ben 65536 [8],
permettendo così di contenere in
una singola tabella tutti i caratteri necessari
per la maggior parte delle lingue del mondo;
questo sistema non ha però ancora
trovato universale approvazione, prima di
tutto perché molti programmi non
sono in grado di utilizzarlo, e poi perché
l'invio di un testo in Unicode richiede
la trasmissione di una quantità di
dati doppia dei normali set di caratteri
ad 8 bit.
La sola modalità rappresentativa
delle informazioni tramite le tavole dei
codici non consente però un'esaustiva
trasmissione dei dati traditi. Questo perché
le fonti testuali sono portatrici di contenuti
che esulano dal solo set di caratteri visibili.
Le informazioni relative alla struttura
del documento non sono rappresentabili e
limitare la codifica al solo character
set condurrebbe ad un inevitabile perdita.
E' allora necessario approdare ad un secondo
più analitico livello di codifica
che consenta un'esaustiva rappresentazione
della fonte.
L'attività di codifica testuale non
è un'operazione così semplice
come può apparire: essa conduce di
necessità a non ignorare il problema
della scelta degli elementi da codificare
[9];
tale scelta deve essere condizionata dalle
caratteristiche del trattamento per cui
si intende optare e, allo stesso modo, la
scelta del tipo di rappresentazione dei
dati influenza l'intero processo di elaborazione
dell'informazione testuale. Questo in quanto
non è possibile codificare tutta
l'informazione trasmessa perché è
l'esigenza della resa automatica che individua
il grado di analiticità della codifica.
Codificare significa dunque effettuare un'analisi
del testo, individuarne le caratteristiche
e formulare quindi un'interpretazione della
fonte, sulla base delle features
individuali o della classe di riferimento.
E' possibile comunque individuare
quali sono le caratteristiche del testo
che vengono di base codificate, cioè
interpretate. Esistono 3 categorie: struttura,
"formato", contenuto.
STRUTTURA: per codifica della
struttura si intende l'individuazione delle
partizioni principali e secondarie del testo
(ad esempio capitoli, sezioni, paragrafi
per un testo in prosa; canti, stanze, versi
per un componimento poetico; atti e scene
per un testo teatrale, ecc.).
"FORMATO": si sintende
l'aspetto fisico del documento, quindi la
riproduzione in formato digitale delle caratteristiche
della versione cartacea. In questo caso
si intende quindi dalla codifica di grassetti,
corsivi e sottolineati; ma anche di alcuni
caratteri speciali che richiedono una particolare
resa per essere rappresentati (tutto ciò
che esula quindi dal set ASCII); o ancora
posizionamento di note e annotazioni, organizzazione
di eventuali glosse marginali, indentazioni.
CONTENUTO: in questo caso
si esula sia dall'aspetto strutturale che
da quello realtivo al formato; è
in questa fase che la codifica richiederà
una scelta degli elementi da codificare;
in questo caso tale scelta è determinata
dalle esigenze specifiche del lavoro di
resa elettronica [10].
4.3
La modellizzazione della fonte
In relazione alla precedente
tripartizione è possibile identificare
2 principali caratteristiche identificative
di una fonte testuale. Le chiameremo testo
e documento, dove la rappresentazione
dell'aspetto materiale della fonte sarà
il documento mentre la rappresentazione
astratta o logica del contenuto sarà
il testo.
Ne consegue che chiameremo
testo un'entità non indagata
nelle sue istanze semantiche o sintattiche,
ma un'invariante di segni grafici.
Sono da ascrivere al testo così inteso
le segmentazioni logiche e le partizioni
interne di interi blocchi di scrittura,
che sono caratterizzate dal possedere una
peculiare distribuzione gerarchica e funzionale
(indipendentemente dalla loro resa tipografica).
Sono poi passibili di entrare a far parte
del testo anche altri elementi identificativi,
più precisamente tutto ciò
che è riconducibile all'istanza di
responsabilità dell'autore: il titolo
ed il nome dell'autore, astraendo dalla
loro collocazione spaziale, che appartiene
al documento, gli intertitoli, le note,
cioè tutte quelle pratiche che accompagnano
il testo, pur non essendo testo in senso
stretto, al momento del contatto con l'utente.
La resa del TESTO è quindi indipendente
dallo specifico esemplare cartaceo di riferimento,
è un'astrazione dall'oggetto materico
specifico; è ciò che riguarda
l'istanza di responsabilità dell'autore.
Chiameremo invece documento
l'organizzazione spaziale del supporto originale
del testo e la disposizione delle tracce
fisiche dei segni grafici. Più precisamente
diremo che gli aspetti caratteristici del
documento riguardano la distribuzione dei
vari elementi all'interno della pagina e
l'indagine del supporto materiale (tipi
di caratteri, collocazione delle immagini,
elementi introdotti non dall'autore del
testo). Il DOCUMENTO si rifà quindi
allo specifico esemplare di riferimento
che abbiamo sotto mano, cioè a quella
precisa versione del cartaceo che vogliamo
codificare [11].
E' quindi essenziale elaborare
un modello della fonte oggetto di attività
di codifica. Modello che non sarà
mai univoco, in quanto molteplici sono i
punti di vista rapportabili all'oggetto
da sottoporre a trattamento automatico.
indietro
|