|
Segue
Parte 5. Principi di digitalizzazione di
testo e immagini
Indietro
5.5 Cattura delle immagini e OCR
Per testo intenderemo certo
una sequenza di valori numerici, o, più
precisamente, una sequenza di caratteri,
ciascuno compreso dallelaboratore
come una sequenza di valori numerici, correlati
alle lettere del testo e dunque manipolabili
dallutente. Quando ci troviamo a gestire
materiali testuali, trattiamo però un tipo
di dato differente dal dato caratterizzante
limmagine.
Mentre nellimmagine
la sequenza dei valori numerici 0 e 1 definisce
il colore proprio di ogni singolo pixel,
nel testo la medesima sequenza si riferisce
ad un carattere alfabetico. Se lobiettivo
della scansione contempla obiettivi di ricerca,
di analisi o di indagine, ciò che ci interessa
avere sulla macchina non è unimmagine
digitale, ma un testo in formato digitale,
cosa che consente di interagire significativamente
con la fonte.
Attualmente i moderni software
di accompagnamento degli scanner, i cosiddetti
pacchetti applicativi OCR, permettono di
realizzare quel passaggio dallimmagine
al testo; il riconoscimento dei caratteri
alfanumerici da parte degli OCR avviene
in quanto tali software sono in grado di
associare ad ogni porzione del testo, riconosciuta
dallo scanner come unimmagine, un
singolo carattere (avendo limmagine
della lettera a il programma
è in grado di riconoscere il carattere a)
trasformando quindi limmagine digitale
in un testo ASCII [14] . Attualmente però il
procedimento di OCR non è giunto a livelli
ottimali e quindi il risultato della scansione
non è totalmente affidabile, necessita cioè
di accurate revisioni.
Il primo inconveniente è
costituito dal fatto che limmagine
dorigine deve essere perfetta: ove
occorrano imperfezioni nella stampa originale,
come macchie sulla carta, il sistema non
è in grado di ricostruire la lettera in
questione, scambiandola con unaltra
lettera. Altro inconveniente è costituito
dal fatto che seppure il sistema è spesso
in grado di riconoscere certe particolarità
della polizza, cioè del font, (corsivo,
grassetto, ecc.) tali particolarità non
vengono registrate nel file prodotto, che
contiene i caratteri alfabetici corrispondenti
senza alcuna discriminazione.
Lo stesso valga per quei dispositivi
in grado di digitalizzare automaticamente
microfilm, molto utili per la creazione
di archivi di immagini digitali di testi
manoscritti o incunaboli; ma le tecnologie
di riconoscimento automatico dei caratteri,
i cosiddetti ICR, Intelligent
Character Recognition, pacchetti software
più sofisticati degli OCR, non sono in grado
di confrontarsi con risultati soddisfacenti
con questo tipo di sorgenti.
Agli inconvenienti degli OCR,
si è cercato infatti di ovviare con gli
ICR, pacchetti che basano i loro procedimenti
anche su un patrimonio di conoscenze in
grado di crescere in modo automatico durante
lattuazione di procedimenti stessi.
In particolare gli ICR sono stati dotati
di dizionari di riscontro, in base ai quali
riconoscere sequenze di lettere come lecite,
e ricostruire al loro interno le eventuali
singole lettere non riconosciute. In conseguenza
poi di questa esperienza essi
possono imparare le idiosincrasie dei font
con cui sono confrontati. Inoltre gli ICR
sono stati messi in grado di analizzare
meglio limmagine digitalizzata, in
modo da riconoscerne alcune strutture dellimpaginazione
dei testi, escludendo, per esempio, le figure,
ovvero trattando a parte delle finestre
estranee al testo principale; sono stati
poi forniti della capacità di inserire nel
file prodotto elementi di codifica che avvertano
dellesistenza delle particolarità
sopra menzionate.
La prospettiva di raccogliere
un numero sempre maggiore di testi in MRF
per compiere osservazioni, analisi e sperimentazioni
sui testi mediante procedimenti informatici
è certo entusiasmante. Affidare il compito
di trascrizione ad una macchina sembra risolvere
il grande problema preliminare di trasferimento
dei testi su supporto magnetico. In realtà
per utilizzare scientificamente i testi
occorre ben altro: il prodotto offerto dagli
ICR non pare soddisfacente; grande è la
distanza fra la capacità di riconoscere
le sequenze di caratteri costituenti un
testo e la capacità di riprodurre su supporto
magnetico il testo stesso, del quale i caratteri
sono soltanto uno degli elementi costitutivi.
Unultima puntualizzazione.
È assolutamente consigliabile che, allatto
della scansione, si eliminino tutti gli
eventuali passaggi che possono intercorrere
tra loriginale e la sua corrispettiva
immagine digitale. Per ottenere unimmagine
di buona qualità la digitalizzazione andrebbe
operata direttamente sulloggetto originale,
ma generalmente avviene che la scansione
sia fatta su di una fonte intermediaria.
Il caso più diffuso è quello della scansione
di un microfilm, necessaria di fronte ad
una fonte manoscritta che potrebbe essere
danneggiata allatto di una digitalizzazione
effettuata direttamente sulloriginale.
In questo caso, generalmente, il manoscritto
viene microfilmato ed è poi il microfilm
ad essere trasformato in immagine digitale.
Siamo di fronte alla cosiddetta
catena della digitalizzazione: più passaggi
sono presenti allinterno di tale catena,
peggiore sarà limmagine digitale e
quindi maggiore la sua differenza rispetto
alloriginale, cioè maggiore la perdita
di informazione.
APPENDICE:
Le immagini digitali e il Web. Alcuni esempi
di trattamento dei manoscritti e antichi
testi a stampa
Il Web è diventato luogo di
distribuzione dei risultati ottenuti in
fase di digitalizzazione di fonti primarie.
Sono sempre più numerosi gli enti (principalmente
le biblioteche) che mettono a disposizione
le immagini digitali di codici ritenuti
particolarmente rilevanti. La digitalizzazione
è essenziale non solo per consentire allutenza
di consultare manoscritti o fondi senza
doversi fisicamente recare nei luoghi di
conservazione, ma anche per preservare le
fonti dallusura della consultazione
diretta.
Due sono i requisiti che progetti
di questa natura dovrebbero soddisfare:
distribuire immagini di elevata qualità,
tali da sostituire la visione diretta degli
esemplari; affiancare allimmagine
digitale la descrizione del codice
(descrizione interna ed esterna) secondo
i principi di descrizione uniforme dei manoscritti,
come definiti dallIstituto Centrale
per il Catalogo Unico delle biblioteche
italiane e per le informazioni bibliografiche
[15] . Solo a questo punto un fondo
digitalizzato può consentire di dar vita
ad una vera e propria biblioteca digitale.
Vediamo quindi innanzitutto
quali sono gli elementi principali di una
scheda catalografica per la descrizione
di manoscritti e antichi testi a stampa
[16] :
-
individuazione dellopera
in questione (autore e titolo dellopera
oppure genere di riferimento [corale,
antifonario, messale, libro dore,
ecc.]);
-
segnatura del manoscritto,
apposta direttamente dallente,
è lidentificativo univoco della
fonte;
-
sede di conservazione;
-
origine (luogo
di provenienza);
-
indicazione cronologica,
in alcuni casi si tratta di una
data certa (per i manoscritti datati),
più spesso viene dedotta dallesame
della decorazione e/o dei dati codicologici,
nel qual caso si indica il secolo (in
numeri romani) accompagnato dalla sigla
in. per la parte iniziale, med.
per quella centrale e des. per
quella finale;
-
materia (generalmente membr.
per le carte pergamenacee, cart.
per quelle cartacee);
-
dimensioni, espresse
in millimetri, altezza per base, dedotte
dalla media delle misurazioni effettuate
su due o tre carte scelte a caso allinterno
del manoscritto;
-
carte ed individuazione
delle numerazioni: generalmente
si adotta la terminologia della scuola
italiana, intendendo per carta una
delle due parti solidali cui è composto
il foglio; ogni carta ha un recto
e un verso, che convenzionalmente
si indicano con r e v;
le carte di guardia vengono indicate
con numeri romani e sono contrassegnate
da un apice quelle collocate in calce
al manoscritto; sono altresì accompagnate
da un apice quelle carte che si ritengono
essere state aggiunte successivamente
al manoscritto o comunque che non sono
considerate parte integrante del codice
originale (I + 8 + 244 + III
ad esempio, sta a significare una carta
di guardia, 8 carte aggiunte, 244 carte
originali e 3 carte di guardia finali);
-
tipo di scrittura,
ossia tipo di grafia e colore dellinchiostro
impiegato;
-
disposizione del testo:
si precisa se è a piena pagina o su
più colonne e il numero delle linee;
-
legatura: materiali
impiegati, se originale o meno ed eventuali
intestazioni presenti sulla coperta
o sul dorso;
-
stato di conservazione: indicazione
sommaria di danni, rifilature o mutilazioni
subite dal codice e di interventi di
restauro se documentati;
-
note identificative:
segnalazione di elementi certi raccolti
allinterno del codice, utili allidentificazione
del miniatore, del copista, del legatore,
di antichi possessori, di committenti
o di altri personaggi in qualche modo
legati alla storia del manoscritto (colophon,
ex libris, note di possesso,
antiche segnature, timbri etc.);
-
contenuto: voce
di descrizione interna nella quale si
precisa il tipo di opera (titolo ed
autore se si tratta di unopera
conosciuta) e si individuano le diverse
partizioni interne, con i relativi incipit
ed explicit;
-
decorazione: esame
dellapparato e del programma decorativo,
ed elenco dettagliato degli interventi
miniati secondo questa gerarchia: interventi
isolati dal testo (ovvero riquadri
miniati, siano essi a piena pagina o
meno), iniziali figurate ed iniziali
decorate; eventualmente interventi di
penna, ossia iniziali filigranate
e capilettera;
-
bibliografia specifica.
Esempio di Scheda catalografica
Esempio di Scheda catalografica
secondo lo standard ICCU, 2002 realizzata
da Paola Errani della Biblioteca Malatestiana
di Cesena. Cfr. <http://www.malatestiana.it>.
AUGUSTINUS AURELIUS <SANTO>,
De civitate Dei
Cesena, Biblioteca Malatestiana D.IX.1
1450 (c. 405v); membranaceo;
cc. I, 405, I; cartulazione recente a
matita nell'angolo superiore destro del
recto.
Fascicolazione: I8
(cc. 1-8 ), II6 (cc. 9-14 ),
III-XXXVIII10 (cc. 15-374),
XXXIX-XLI8 (cc. 375-398), XLII8-1
(cc. 399-405); sempre rispettata la regola
di Gregory (il fasc. I inizia col lato
carne).
Foratura non rilevabile.
Rigatura a secco.
Dimensioni: 373x254x66 mm
Specchio rigato, righe e
disposizione del testo: 40 righe di testo
a piena pagina (41 righe tracciate di
cui la prima non scritta).
Richiami sempre presenti
al centro del margine inferiore dell'ultima
carta del verso di ogni fascicolo, della
stessa mano e dello stesso inchiostro
del testo.
Scrittura di una sola mano:
littera antiqua di Jacopo da Pergola,
in inchiostro marrone, con incipit, explicit,
titolo corrente e numero del capitolo
corrente in inchiostro rosso.
Decorazione: iniziale figurata:
c. 15r (lettera G in oro, ornata da un
cordone turchino e da una ghirlanda di
fogliami verdi, che racchiude la rappresentazione
prospettica del Santo nello studio, con
apertura di paesaggio; a c. 1r iniziale
decorata con fregio a bianchi girari lungo
il margine interno (lettera I, Interea);
iniziali decorate (in forme capitali romane
in risparmiato, o a cappio intrecciato,
in finta orificeria o scultura, su fondo
oro o a bianchi girari, o su targhe in
scultura dipinta, con brevi fregi e decorazione
umanistica a tralci, festoni, lacci, fiori,
protomi ferine o umane): cc. 32r, S (Si
rationi), 47r, I (Iam satis), 63r, D (De
civitate), 78r, Q (Quoniam), 95v, Q (Quinque),
106r, D (Diligentius), 122r, N (Nunc),
139r, E (Et hos), 149r, O (Omnium), 169r,
C (Civitatem), 184v, A (Antequam), 198v,
E (Expeditis), 212v, D (Diximus), 228v,
D (De felicitate), 248r, P (Post diluvium),
271r, P (Promissiones), 289r, D (De civitatum),
316r, Q (Quoniam), 334v, D (De die), 359v,
C (Cum per yesum), 379r, S (Sicut) ; iniziali
dorate e filigranate "de pennello"
all'inizio di ogni capitolo; a c. 15r
fregio su quattro lati con stemma di Malatesta
Novello.
Rilegatura del XVIII secolo,
con restauro parziale eseguito dal laboratorio
dell'Abbazia di Santa Maria del Monte
di Cesena; coperta in cuoio marocchino,
decorata con impressioni a secco, su assi
in legno; cucitura su cinque nervi doppi;
capitelli in lino; cinque borchie in ferro
quadrilobate per ogni piatto; due bindelle
in cuoio con puntale in ottone sul margine
davanti del piatto ant.; due tenoni in
bronzo e ferro ottagonali sul margine
davanti del piatto post.; catena in ferro
assicurata al margine di piede del piatto
post.
Stato di conservazione:
pieghe alle cc. 59 e 143; tagli alle cc.
95 e 180; macchie di cera a c. 15; abrasioni
nella coperta, rottura del refe di cucitura
ai fascicoli I, III e XXIII, e lacerazione
lungo la linea di cerniera, specialmente
sul piatto post.
Autografo di Jacopo da Pergola
(c. 405v): Scriptus per me Iacobum
de pergula pro Magnifico & Potenti
domino d. Malatesta nouello de malatis
(sic) etc. quem compleui in ciuitate
fani MCCCCL die X februarij.
Antiche segnature: I.
fila / IX pluteo / I in ordine in
inchiostro marrone nella controguardia
ant.
Il volume fu eseguito per
Malatesta Novello ed è quindi sempre stato
conservato nella raccolta malatestiana
cesenate.
AUGUSTINUS AURELIUS
<SANTO>
1) Retractatio in libros De civitate
Dei
c. 1r
Incipit: Interea Roma Gothorum irruptione
Explicit: hoc opus sic incipit. Gloriosam
civitatem dei
2) De civitate Dei
cc. 1v-405v
c. 1v: Incipiunt capitula primi libri.
De aduersariis nominis christi
c. 14v: De eterna felicitate ciuitatis
dei Sabbatoque perpetuo.
c. 15r: Rubrica Beatissimi Aurelii Augustini
de civitate dei liber primus incipit.
Ad Marcellinum
cc. 15r-405v
Incipit: Gloriosissimam civitatem Dei
sive in hoc temporum cursu
Explicit: Quibus autem sat est non mihi
sed deo me cum gratias gratulantes agant.
De civitate Dei liber XXII explicit feliciter.
Esempi di raccolte
iconografiche
- la biblioteca digitale
della Biblioteca Ambrosiana di Milano,
<http://www.
ambrosiana.it
/ita/digitale.asp >, che allo
stato attuale riporta:
- il progetto di digitalizzazione
di alcuni manoscritti appartenenti ai
fondi storici della Biblioteca Nazionale
Centrale di Firenze (Magliabechiano,
Palatino,
Banco
Rari, Rari,
Galileiano,
Nazionale,
Cappugi,
Nuovi
Acquisti).
Cfr. <http://www.bncf.firenze.sbn.it/
Bib_digitale
/Manoscritti/home.html>.
- La Biblioteca Digitale
della Biblioteca Nazionale di Napoli,
<http://www.bnnonline.it/
biblvir/bibdig.htm>, che, allo
stato attuale, ha messo a disposizione
i Canti leopardiani (manoscritti
autografi della biblioteca) [Immagine
del manoscritto leopardiano c. 1r, C.L.XIII.22]
e Leggere per immagini, il
libro illustrato a Napoli nell'età del
viceregno spagnolo (1503-1707).
- Il catalogo dei manoscritti
della Biblioteca Malatestiana di Cesena
<http://www.malatestiana.it/
manoscritti/index.htm>.
- Le immagini
della Biblioteca Estense di Modena, <http://www.cedoc.mo.it/
estense/mss/
index.html>, che riguardano: codici
manoscritti, carte e mappe, vedute della
città di Modena, mostre (Astrologia, Cartografia,
Dante, Estensi, Giardini, Leggenda Aurea)
e stemmi. [Immagine
c. 6r del De Spera, Lat. 209].
- il progetto Amanuense,
<http://www.amanuense.it/>,
per la digitalizzazione dei fondi di alcune
biblioteche nazionali:
- Biblioteca comunale di
Montecatini Terme (Fondo Venturi)
- Biblioteca degli Intronati
di Siena (Il Catalogo Ilari)
- Gabinetto Vieusseux di
Firenze (Libro dei soci)
- Biblioteca Forteguerriana
di Pistoia (La scuola in mostra)
- Biblioteca degli Uffizi
(Il discorso sopra le gemme intagliate,
Il catalogo della Galleria, Fondo Carocci)
- Biblioteca Nazionale
Centrale di Firenze (Associazionismo
in Toscana tra 800 e 900)
- Unione Femminile Nazionale
(La rivista Unione Femminile)
-
- I manoscritti della Commedia
di Dante [Immagine
Codice Riccardiano 1035, c.4r],
messi in linea con la consulenza scientifica
della Società Dantesca Italiana, allindirizzo
<http://www.danteonline.it/
italiano/codici_indice.htm>. Le
immagini digitali sono corredate da schede
catalografiche di altissimo livello.
- Il progetto CEEC (Codices
Electronici Ecclesiae Coloniensis) di
digitalizzazione dei codici del Vescovo
di Colonia [Immagine
pagina di apertura del sito]. E
il più interessante progetto di implementazione
di una banca dati dinamica che associa
dettagliate descrizioni ad immagini digitali
ad altissima risoluzione. Cfr. <http://www.ceec.uni-koeln.de>
Il Digital Scriptorium dellUniversità
di Berkeley <http://sunsite.berkeley.edu/
Scriptorium>, una ricchissima banca
dati iconografica di manoscritti medievali
e rinascimentali di varie biblioteche
statunitensi.
Progetto IMAGO, <http://www.ibc.regione.
emilia-romagna.it/
soprintendenza/htm/imago.htm>,
catalogo collettivo di opere grafiche
(stampe, disegni, fotografie, manifesti,
figurine, etc.) appartenenti ad alcune
istituzioni emiliano-romagnole. E
data la possibilità di effettuare ricerche
sul corpus:
- a partire da alcuni descrittori
(come il soggetto o la classificazione)
- a partire da liste precostituite
(come il nome dellautore o il
titolo)
- effettuando una ricerca
libera (parole chiave)
Linterrogazione sortisce
la descrizione catalografica associata allimmagine
digitale.
La maschera di interrogazione:
Indietro
|