|
Parte
4 - IL TESTO ELETTRONICO
La rappresentazione del
testo
L'avvento di sistemi automatizzati,
nell'ambito del trattamento dei dati umanistici,
ha condotto ad una generale riflessione
attorno al significato dell'utilizzo dell'informatica,
intesa come scienza per la trasmissione
delle informazioni e non come semplice strumento.
L'apporto di pratiche elettroniche nella
gestione di dati testuali ha condotto ad
una nuova modalità di indagine e
ricerca delle informazioni trasmesse dalle
fonti, a tutt'oggi essenzialmente disponibili
su supporto cartaceo.
Prima di iniziare ogni processo
di creazione di un testo elettronico è
necessario sottoporre la fonte ad un'accurata
analisi, cioè ad un'indagine precisa
dell'oggetto fisico, necessaria per capire
quale è lo scopo della resa elettronica.
Non solo la prima fase di memorizzazione
del testo richiede accuratezza nella scelta
del documento e nella sua conversione in
oggetto digitale, ma la stessa codifica
necessita della definizione degli obiettivi
del procedimento automatico e dell'individuazione
degli scopi successivi alla resa elettronica
del testo [1].
E' quindi necessario SCEGLIERE
IL TESTO, procedere alla sua MEMORIZZAZIONE,
CODIFICARLO sulla
base dell'individuazione degli elementi
pertinenti, cioè degli scopi della
codifica e creare quindi un MODELLO
della fonte di partenza.
4.1
La memorizzazione del testo
La prima attività,
che sovrintende a qualsiasi forma di trattamento
elettronico, è quella della memorizzazione
automatica dei dati. La trasposizione dei
dati informazionali in Machine Readable
Form (MRF) e cioè in forma leggibile
dalla macchina [2],
è un procedimento complesso che coinvolge
l'attività di un emittente,
quale trasmettitore di informazioni, e quella
di un destinatario, ricevente del
contenuto inviato. Trasmissione complessa
in quanto è necessario che emittente
e destinatario condividano un codice comunicativo
senza il quale ogni forma di comprensione
sarebbe impossibile. Questo perché
in un processo comunicativo come quello
uomo-macchina non è immediatamente
fattibile dal momento che le modalità
di espressione delle due entità sono
differenti: linguaggio naturale e
linguaggio binario [3].
Sarà dunque necessario individuare
un codice comune che consenta di condividere
informazioni senza perdita.
È evidente che per
rendere possibile a un programma di compiere
delle operazioni sul testo è necessario
che questo testo venga memorizzato.
L'acquisizione del file che contiene il
testo può essere ottenuta in vari
modi. La più immediata e "antica"
è la battitura da tastiera, ma è
possibile effettuare
anche una cattura effettuata tramite un
lettore ottico (scanner [4])
o pensare di acquisire il testo acquistando,
o ottenendo per altra via, un nastro o un
floppy memorizzato altrove.
La condizione che comunque è generalmente
necessaria perché il testo sia utilizzabile
è che il file di testo sia un file
ASCII (American
Standard Code for Information Interchange)
o che comunque detto file sia trasformabile
in formato ASCII [5].
A questo proposito, nel caso di battitura
da terminale, si deve fare molta attenzione
a non utilizzare per la memorizzazione un
Word Processor (un programma cioé
che tratta il testo in vista di un'impaginazione),
ma un semplice Editor [6].
Il Word Processor, infatti, molto
spesso per ottenere l'impaginazione manipola
il testo: inserisce spazi bianchi supplementari
e utilizza caratteri di controllo che sono
invisibili all'utente. In una parola il
Word Processor tratta il testo in un modo
tale da renderlo spesso inutilizzabile per
qualsiasi utilizzazione successiva.
Nel caso di memorizzazione da scanner bisognerà
stare molto attenti a non fidarsi del lavoro
compiuto automaticamente, ma sarà
necessario compiere un'accurata opera di
revisione del testo.
4.2
La codifica del testo
Come TUTTA l'informazione
veicolata da un calcolatore, anche i caratteri,
vengono codificati mediante serie di bit.
Infatti le tavole dei codici sono tavole
di corrispondenza che associano a sequenze
di bit un valore corrispondente ad un carattere
(lettere, numeri, segni speciali della tastiera).
Il primo codice con cui naturalmente e quasi
senza accorgercene ci confrontiamo, è
infatti quello con il quale immettiamo i
dati nella macchina, quello che ci consente
cioè di scrivere utilizzando il computer;
è questo il primo strumento di cui
facciamo uso al fine di rappresentare i
dati testuali all'elaboratore.
Fino alla fine degli anni
cinquanta la comunicazione tra operatore
umano ed elaboratore richiedeva l'immissione
dei dati e delle istruzioni direttamente
in codice binario; è sorta dunque
l'esigenza di rappresentare in maniera più
agevole ed amichevole, nella memoria dell'elaboratore,
i dati testuali, sotto forma di segni come
quelli delle notazioni alfabetiche.
Ciò è stato
evidentemente possibile grazie alla capacità
delle macchine di ripetere i due numeri
della notazione binaria in un numero indefinito
di volte; il codice binario è cioè
in grado di codificare un numero infinito
di fenomeni, a patto che i suoi due simboli
siano riuniti in un gruppo e a patto di
rendere significativa la posizione che il
segno occupa in una sequenza.
Per rappresentare caratteri tramite ricorso
ai due soli numeri 1 e 0 è sufficiente
definire quindi una corrispondenza biunivoca
che associ il repertorio dei simboli notazionali,
caratterizzante un determinato sistema di
scrittura, ad una sequenza di codici numerici
elaborati ricorrendo alla sola notazione
binaria. La tavola di corrispondenza derivante
viene denominata Coded Character Set,
insieme ordinato di caratteri codificati
(tramite ricorso alla notazione numerica).
Sono state elaborate, nel corso degli anni,
molteplici tavole di caratteri basate su
sequenze binarie di differenti grandezze.
La più nota e diffusa fra di esse
è certamente l'American
Standard Code for Information Interchange
(ASCII).
Trattasi del codice standard attualmente
più diffuso per i personal computer;
esso consente la rappresentazione di 128
simboli (lettere dell'alfabeto, numeri e
segni diacritici) essendo formato da sequenze
binarie di 7 bit (binary digit
cioè cifre binarie).
Questo codice è basato sull'alfabeto
delle lingue anglosassoni e dunque non contiene
moltissimi caratteri usati dagli alfabeti
latini e nordici, e, naturalmente, quasi
nessun carattere di quelli non latini [7].
Gli attuali computer tuttavia consentono
di impiegare sequenze superiori alle sette
cifre binarie, per la rappresentazione elettronica
dell'informazione testuale, e dunque la
sequenza base è stata incrementata
di un elemento (8 bit invece di 7), permettendo
la definizione di 256 possibili rappresentazioni
(Extended ASCII). Le nuove posizioni
sono state però contraddistinte in
maniera differente dai vari produttori e
ciò ha condotto alla proliferazione
di molteplici derivazioni dall'originale
ASCII a 7 bit, ciascuna caratterizzante
un diverso alfabeto nazionale.
Naturalmente questa proliferazione ha comportato
una riduzione della portabilità dei
dati memorizzati su supporto elettronico
tra ambienti software e hardware differenti,
poiché ogni derivazione dall'ASCII
originale associa le medesime sequenze binarie
a caratteri o simboli differenti.
Questo metodo venne codificato nello standard
ISO 8859-n, dove n è un numero
che indica quale particolare tabella di
caratteri sia utilizzata. Ad esempio, la
tabella di caratteri adatta per l'italiano
è la ISO 8859-1, comunemente
detta anche Latin-1.
|