Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

ultimo aggiornamento: 06/03/2002

Il Manuale

     

Parte 4 - IL TESTO ELETTRONICO

La rappresentazione del testo

L'avvento di sistemi automatizzati, nell'ambito del trattamento dei dati umanistici, ha condotto ad una generale riflessione attorno al significato dell'utilizzo dell'informatica, intesa come scienza per la trasmissione delle informazioni e non come semplice strumento. L'apporto di pratiche elettroniche nella gestione di dati testuali ha condotto ad una nuova modalità di indagine e ricerca delle informazioni trasmesse dalle fonti, a tutt'oggi essenzialmente disponibili su supporto cartaceo.

Prima di iniziare ogni processo di creazione di un testo elettronico è necessario sottoporre la fonte ad un'accurata analisi, cioè ad un'indagine precisa dell'oggetto fisico, necessaria per capire quale è lo scopo della resa elettronica. Non solo la prima fase di memorizzazione del testo richiede accuratezza nella scelta del documento e nella sua conversione in oggetto digitale, ma la stessa codifica necessita della definizione degli obiettivi del procedimento automatico e dell'individuazione degli scopi successivi alla resa elettronica del testo [1].

E' quindi necessario SCEGLIERE IL TESTO, procedere alla sua MEMORIZZAZIONE, CODIFICARLO sulla base dell'individuazione degli elementi pertinenti, cioè degli scopi della codifica e creare quindi un MODELLO della fonte di partenza.

4.1 La memorizzazione del testo

La prima attività, che sovrintende a qualsiasi forma di trattamento elettronico, è quella della memorizzazione automatica dei dati. La trasposizione dei dati informazionali in Machine Readable Form (MRF) e cioè in forma leggibile dalla macchina [2], è un procedimento complesso che coinvolge l'attività di un emittente, quale trasmettitore di informazioni, e quella di un destinatario, ricevente del contenuto inviato. Trasmissione complessa in quanto è necessario che emittente e destinatario condividano un codice comunicativo senza il quale ogni forma di comprensione sarebbe impossibile. Questo perché in un processo comunicativo come quello uomo-macchina non è immediatamente fattibile dal momento che le modalità di espressione delle due entità sono differenti: linguaggio naturale e linguaggio binario [3]. Sarà dunque necessario individuare un codice comune che consenta di condividere informazioni senza perdita.

È evidente che per rendere possibile a un programma di compiere delle operazioni sul testo è necessario che questo testo venga memorizzato.
L'acquisizione del file che contiene il testo può essere ottenuta in vari modi. La più immediata e "antica" è la battitura da tastiera, ma è possibile effettuare
anche una cattura effettuata tramite un lettore ottico (scanner [4]) o pensare di acquisire il testo acquistando, o ottenendo per altra via, un nastro o un floppy memorizzato altrove.
La condizione che comunque è generalmente necessaria perché il testo sia utilizzabile è che il file di testo sia un file ASCII (American Standard Code for Information Interchange) o che comunque detto file sia trasformabile in formato ASCII [5]. A questo proposito, nel caso di battitura da terminale, si deve fare molta attenzione a non utilizzare per la memorizzazione un Word Processor (un programma cioé che tratta il testo in vista di un'impaginazione), ma un semplice Editor [6].
Il Word Processor, infatti, molto spesso per ottenere l'impaginazione manipola il testo: inserisce spazi bianchi supplementari e utilizza caratteri di controllo che sono invisibili all'utente. In una parola il Word Processor tratta il testo in un modo tale da renderlo spesso inutilizzabile per qualsiasi utilizzazione successiva.
Nel caso di memorizzazione da scanner bisognerà stare molto attenti a non fidarsi del lavoro compiuto automaticamente, ma sarà necessario compiere un'accurata opera di revisione del testo.

4.2 La codifica del testo

Come TUTTA l'informazione veicolata da un calcolatore, anche i caratteri, vengono codificati mediante serie di bit. Infatti le tavole dei codici sono tavole di corrispondenza che associano a sequenze di bit un valore corrispondente ad un carattere (lettere, numeri, segni speciali della tastiera). Il primo codice con cui naturalmente e quasi senza accorgercene ci confrontiamo, è infatti quello con il quale immettiamo i dati nella macchina, quello che ci consente cioè di scrivere utilizzando il computer; è questo il primo strumento di cui facciamo uso al fine di rappresentare i dati testuali all'elaboratore.

Fino alla fine degli anni cinquanta la comunicazione tra operatore umano ed elaboratore richiedeva l'immissione dei dati e delle istruzioni direttamente in codice binario; è sorta dunque l'esigenza di rappresentare in maniera più agevole ed amichevole, nella memoria dell'elaboratore, i dati testuali, sotto forma di segni come quelli delle notazioni alfabetiche.

Ciò è stato evidentemente possibile grazie alla capacità delle macchine di ripetere i due numeri della notazione binaria in un numero indefinito di volte; il codice binario è cioè in grado di codificare un numero infinito di fenomeni, a patto che i suoi due simboli siano riuniti in un gruppo e a patto di rendere significativa la posizione che il segno occupa in una sequenza.
Per rappresentare caratteri tramite ricorso ai due soli numeri 1 e 0 è sufficiente definire quindi una corrispondenza biunivoca che associ il repertorio dei simboli notazionali, caratterizzante un determinato sistema di scrittura, ad una sequenza di codici numerici elaborati ricorrendo alla sola notazione binaria. La tavola di corrispondenza derivante viene denominata Coded Character Set, insieme ordinato di caratteri codificati (tramite ricorso alla notazione numerica). Sono state elaborate, nel corso degli anni, molteplici tavole di caratteri basate su sequenze binarie di differenti grandezze. La più nota e diffusa fra di esse è certamente l'American Standard Code for Information Interchange (ASCII). Trattasi del codice standard attualmente più diffuso per i personal computer; esso consente la rappresentazione di 128 simboli (lettere dell'alfabeto, numeri e segni diacritici) essendo formato da sequenze binarie di 7 bit (binary digit cioè cifre binarie).
Questo codice è basato sull'alfabeto delle lingue anglosassoni e dunque non contiene moltissimi caratteri usati dagli alfabeti latini e nordici, e, naturalmente, quasi nessun carattere di quelli non latini [7]. Gli attuali computer tuttavia consentono di impiegare sequenze superiori alle sette cifre binarie, per la rappresentazione elettronica dell'informazione testuale, e dunque la sequenza base è stata incrementata di un elemento (8 bit invece di 7), permettendo la definizione di 256 possibili rappresentazioni (Extended ASCII). Le nuove posizioni sono state però contraddistinte in maniera differente dai vari produttori e ciò ha condotto alla proliferazione di molteplici derivazioni dall'originale ASCII a 7 bit, ciascuna caratterizzante un diverso alfabeto nazionale.
Naturalmente questa proliferazione ha comportato una riduzione della portabilità dei dati memorizzati su supporto elettronico tra ambienti software e hardware differenti, poiché ogni derivazione dall'ASCII originale associa le medesime sequenze binarie a caratteri o simboli differenti.
Questo metodo venne codificato nello standard ISO 8859-n, dove n è un numero che indica quale particolare tabella di caratteri sia utilizzata. Ad esempio, la tabella di caratteri adatta per l'italiano è la ISO 8859-1, comunemente detta anche Latin-1.

Pagina stampabile




 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

[1] Si deve aver cioè chiaro:

  • cosa si intende fare del testo una volta memorizzato su supporto elettronico;
  • quale è l'utenza media, cioè il destinatario (per tutti gli utenti, per un pubblico di specialisti);
  • quale output si vuole fornire (off-line quindi un prodotto su cui lavorare "in locale"; web quindi per una distribuzione in rete);
  • quale è la disponiblità software (sulla base della scelta del linguaggio con il quale lavorare).

[2] Un testo in MRF è dunque un testo memorizzato, caricato su di un supporto materiale, cioè elettronico (disco magnetico, memoria RAM, CD-ROM) e in una forma tale da rendere possibile la sua gestione automatica.

[3] CFR. sezione 1, parte sull'informazione digitale.

[4] Cfr. sezione 1, parte sugli strumenti di Input e parte 5 sulla digitalizzazione delle immagini.

[5] Ovviamente pensando alla scansione come sistema di riproduzione di un documento in formato testo. Diversa la digitalizzazione che ha come obiettivo la realizzazione di un'immagine digitale della fonte (per cui cfr. sezione 5, anche per la conversione digitale in formato testo tramite scanner).

[6] Cfr. sezione 6 sui linguaggi dichiarativi e procedurali.

[7] L'alfabeto latino, usato nella scrittura di molte lingue nel mondo, presenta una grande quantità di varianti grafiche: si va dalle semplici vocali accentate (accento grave à, acuto á, circonflesso â, dieresi ä, tilde ã) a lettere modificate (lettere con barrette, cediglie, segni), lettere speciali usate solo in una lingua, segni di punteggiatura particolari (il punto interrogativo ed il punto esclamativo capovolti usati nello spagnolo), simboli di valuta, e così via, senza considerare poi che gran parte di questi segni presentano le due forme maiuscola e minuscola.

 

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica