Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

Il Manuale

     

 indietro

Segue
Parte 4 - IL TESTO ELETTRONICO


Naturalmente, per poter leggere correttamente un testo scritto usando una certa tabella è necessario disporre di un font che contenga anche i caratteri di quella tabella; se esso viene letto usandone una diversa, tutti i caratteri alti vengono sostituiti dai corrispondenti nella nuova tabella, così che il testo non risulta più correttamente leggibile; da questo deriva la necessità di 'dichiarare' in qualche modo quale sia il set di caratteri utilizzato.
Per superare questo inconveniente, nel 1991 è stato proposto un sistema di caratteri, chiamato Unicode, che, essendo codificato con 16 bit, ne comprende ben 65536 [8], permettendo così di contenere in una singola tabella tutti i caratteri necessari per la maggior parte delle lingue del mondo; questo sistema non ha però ancora trovato universale approvazione, prima di tutto perché molti programmi non sono in grado di utilizzarlo, e poi perché l'invio di un testo in Unicode richiede la trasmissione di una quantità di dati doppia dei normali set di caratteri ad 8 bit.

La sola modalità rappresentativa delle informazioni tramite le tavole dei codici non consente però un'esaustiva trasmissione dei dati traditi. Questo perché le fonti testuali sono portatrici di contenuti che esulano dal solo set di caratteri visibili. Le informazioni relative alla struttura del documento non sono rappresentabili e limitare la codifica al solo character set condurrebbe ad un inevitabile perdita. E' allora necessario approdare ad un secondo più analitico livello di codifica che consenta un'esaustiva rappresentazione della fonte.
L'attività di codifica testuale non è un'operazione così semplice come può apparire: essa conduce di necessità a non ignorare il problema della scelta degli elementi da codificare [9]; tale scelta deve essere condizionata dalle caratteristiche del trattamento per cui si intende optare e, allo stesso modo, la scelta del tipo di rappresentazione dei dati influenza l'intero processo di elaborazione dell'informazione testuale. Questo in quanto non è possibile codificare tutta l'informazione trasmessa perché è l'esigenza della resa automatica che individua il grado di analiticità della codifica.
Codificare significa dunque effettuare un'analisi del testo, individuarne le caratteristiche e formulare quindi un'interpretazione della fonte, sulla base delle features individuali o della classe di riferimento.

E' possibile comunque individuare quali sono le caratteristiche del testo che vengono di base codificate, cioè interpretate. Esistono 3 categorie: struttura, "formato", contenuto.

STRUTTURA: per codifica della struttura si intende l'individuazione delle partizioni principali e secondarie del testo (ad esempio capitoli, sezioni, paragrafi per un testo in prosa; canti, stanze, versi per un componimento poetico; atti e scene per un testo teatrale, ecc.).

"FORMATO": si sintende l'aspetto fisico del documento, quindi la riproduzione in formato digitale delle caratteristiche della versione cartacea. In questo caso si intende quindi dalla codifica di grassetti, corsivi e sottolineati; ma anche di alcuni caratteri speciali che richiedono una particolare resa per essere rappresentati (tutto ciò che esula quindi dal set ASCII); o ancora posizionamento di note e annotazioni, organizzazione di eventuali glosse marginali, indentazioni.

CONTENUTO: in questo caso si esula sia dall'aspetto strutturale che da quello realtivo al formato; è in questa fase che la codifica richiederà una scelta degli elementi da codificare; in questo caso tale scelta è determinata dalle esigenze specifiche del lavoro di resa elettronica [10].

4.3 La modellizzazione della fonte

In relazione alla precedente tripartizione è possibile identificare 2 principali caratteristiche identificative di una fonte testuale. Le chiameremo testo e documento, dove la rappresentazione dell'aspetto materiale della fonte sarà il documento mentre la rappresentazione astratta o logica del contenuto sarà il testo.

Ne consegue che chiameremo testo un'entità non indagata nelle sue istanze semantiche o sintattiche, ma un'invariante di segni grafici. Sono da ascrivere al testo così inteso le segmentazioni logiche e le partizioni interne di interi blocchi di scrittura, che sono caratterizzate dal possedere una peculiare distribuzione gerarchica e funzionale (indipendentemente dalla loro resa tipografica). Sono poi passibili di entrare a far parte del testo anche altri elementi identificativi, più precisamente tutto ciò che è riconducibile all'istanza di responsabilità dell'autore: il titolo ed il nome dell'autore, astraendo dalla loro collocazione spaziale, che appartiene al documento, gli intertitoli, le note, cioè tutte quelle pratiche che accompagnano il testo, pur non essendo testo in senso stretto, al momento del contatto con l'utente. La resa del TESTO è quindi indipendente dallo specifico esemplare cartaceo di riferimento, è un'astrazione dall'oggetto materico specifico; è ciò che riguarda l'istanza di responsabilità dell'autore.

Chiameremo invece documento l'organizzazione spaziale del supporto originale del testo e la disposizione delle tracce fisiche dei segni grafici. Più precisamente diremo che gli aspetti caratteristici del documento riguardano la distribuzione dei vari elementi all'interno della pagina e l'indagine del supporto materiale (tipi di caratteri, collocazione delle immagini, elementi introdotti non dall'autore del testo). Il DOCUMENTO si rifà quindi allo specifico esemplare di riferimento che abbiamo sotto mano, cioè a quella precisa versione del cartaceo che vogliamo codificare [11].

E' quindi essenziale elaborare un modello della fonte oggetto di attività di codifica. Modello che non sarà mai univoco, in quanto molteplici sono i punti di vista rapportabili all'oggetto da sottoporre a trattamento automatico.

 indietro



 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

[8] Con 2 byte il numero di combinazioni possibili diventa 256x256 = 65.536, perciò Unicode supporta 65.536 diversi segni, al posto dei 256 del set ASCII. Si riescono così a rappresentare non solo tutte le varianti dell'alfabeto latino, ma anche tutti gli altri alfabeti (greco, cirillico, arabo, ebraico...) oltre all'insieme degli ideogrammi cinesi e giapponesi (che sono in tutto circa 30.000, anche se poi ne vengono effettivamente utilizzati solo poche migliaia).

[9] Devono essere chiari quindi gli obiettivi della resa elettronica (solo per citarne alcuni):

  • analisi del testo (indici, frequenze e concordanze)
  • indagine linguistica, stilometrica, retorica
  • codifica fonte prima (con un'attenzione speciale quindi al documento nella sua "fisicità materica")
  • edizione critica (strutturazione dell'apparato)
  • ricerca full-text.

Cfr. sezione 6 sui linguaggi di codifica.

[10] Potrebbe interessarmi individuare tutti i nomi di persona che compaiono nel testo, oppure tutti i riferimenti temporali o le citazioni di luogo; o ancora potrei voler individuare tutte le figure retoriche che ricorrono nel testo; o ancora selezionare tutti i riferimenti in lingua diversa da quella corrente; ecc. L'elenco sarebbe infinito.

[11] Un discorso è quindi lavorare sul testo della Divina Commedia di Dante, altro è codificarne una specifica edizione di riferimento; il documento riguarda la precisa resa formale di un testo che possiede determinate caratteristiche logiche indipendentemente dall'organizzazione e dalla distribuzione dei suoi elementi su uno specifico supporto (e dalla presenza di elementi non d'autore).

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica