Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

Il Manuale

     

Segue
Parte 5. Principi di digitalizzazione di testo e immagini


 Indietro

5.5 Cattura delle immagini e OCR

Per testo intenderemo certo una sequenza di valori numerici, o, più precisamente, una sequenza di caratteri, ciascuno compreso dall’elaboratore come una sequenza di valori numerici, correlati alle lettere del testo e dunque manipolabili dall’utente. Quando ci troviamo a gestire materiali testuali, trattiamo però un tipo di dato differente dal dato caratterizzante l’immagine.

Mentre nell’immagine la sequenza dei valori numerici 0 e 1 definisce il colore proprio di ogni singolo pixel, nel testo la medesima sequenza si riferisce ad un carattere alfabetico. Se l’obiettivo della scansione contempla obiettivi di ricerca, di analisi o di indagine, ciò che ci interessa avere sulla macchina non è un’immagine digitale, ma un testo in formato digitale, cosa che consente di interagire significativamente con la fonte.

Attualmente i moderni software di accompagnamento degli scanner, i cosiddetti pacchetti applicativi OCR, permettono di realizzare quel passaggio dall’immagine al testo; il riconoscimento dei caratteri alfanumerici da parte degli OCR avviene in quanto tali software sono in grado di associare ad ogni porzione del testo, riconosciuta dallo scanner come un’immagine, un singolo carattere (avendo l’immagine della lettera “a” il programma è in grado di riconoscere il carattere “a”) trasformando quindi l’immagine digitale in un testo ASCII [14] . Attualmente però il procedimento di OCR non è giunto a livelli ottimali e quindi il risultato della scansione non è totalmente affidabile, necessita cioè di accurate revisioni.

 Il primo inconveniente è costituito dal fatto che l’immagine d’origine deve essere perfetta: ove occorrano imperfezioni nella stampa originale, come macchie sulla carta, il sistema non è in grado di ricostruire la lettera in questione, scambiandola con un’altra lettera. Altro inconveniente è costituito dal fatto che seppure il sistema è spesso in grado di riconoscere certe particolarità della polizza, cioè del font, (corsivo, grassetto, ecc.) tali particolarità non vengono registrate nel file prodotto, che contiene i caratteri alfabetici corrispondenti senza alcuna discriminazione. 

Lo stesso valga per quei dispositivi in grado di digitalizzare automaticamente microfilm, molto utili per la creazione di archivi di immagini digitali di testi manoscritti o incunaboli; ma le tecnologie di riconoscimento automatico dei caratteri, i cosiddetti ICR, Intelligent Character Recognition, pacchetti software più sofisticati degli OCR, non sono in grado di confrontarsi con risultati soddisfacenti con questo tipo di sorgenti.

Agli inconvenienti degli OCR, si è cercato infatti di ovviare con gli ICR, pacchetti che basano i loro procedimenti anche su un patrimonio di conoscenze in grado di crescere in modo automatico durante l’attuazione di procedimenti stessi. In particolare gli ICR sono stati dotati di dizionari di riscontro, in base ai quali riconoscere sequenze di lettere come lecite, e ricostruire al loro interno le eventuali singole lettere non riconosciute. In conseguenza poi di questa “esperienza” essi possono imparare le idiosincrasie dei font con cui sono confrontati. Inoltre gli ICR sono stati messi in grado di analizzare meglio l’immagine digitalizzata, in modo da riconoscerne alcune strutture dell’impaginazione dei testi, escludendo, per esempio, le figure, ovvero trattando a parte delle finestre estranee al testo principale; sono stati poi forniti della capacità di inserire nel file prodotto elementi di codifica che avvertano dell’esistenza delle particolarità sopra menzionate.

La prospettiva di raccogliere un numero sempre maggiore di testi in MRF per compiere osservazioni, analisi e sperimentazioni sui testi mediante procedimenti informatici è certo entusiasmante. Affidare il compito di trascrizione ad una macchina sembra risolvere il grande problema preliminare di trasferimento dei testi su supporto magnetico. In realtà per utilizzare scientificamente i testi occorre ben altro: il prodotto offerto dagli ICR non pare soddisfacente; grande è la distanza fra la capacità di riconoscere le sequenze di caratteri costituenti un testo e la capacità di riprodurre su supporto magnetico il testo stesso, del quale i caratteri sono soltanto uno degli elementi costitutivi. 

Un’ultima puntualizzazione. È assolutamente consigliabile che, all’atto della scansione, si eliminino tutti gli eventuali passaggi che possono intercorrere tra l’originale e la sua corrispettiva immagine digitale. Per ottenere un’immagine di buona qualità la digitalizzazione andrebbe operata direttamente sull’oggetto originale, ma generalmente avviene che la scansione sia fatta su di una fonte intermediaria. Il caso più diffuso è quello della scansione di un microfilm, necessaria di fronte ad una fonte manoscritta che potrebbe essere danneggiata all’atto di una digitalizzazione effettuata direttamente sull’originale. In questo caso, generalmente, il manoscritto viene microfilmato ed è poi il microfilm ad essere trasformato in immagine digitale.

Siamo di fronte alla cosiddetta catena della digitalizzazione: più passaggi sono presenti all’interno di tale catena, peggiore sarà l’immagine digitale e quindi maggiore la sua differenza rispetto all’originale, cioè maggiore la perdita di informazione.

APPENDICE: Le immagini digitali e il Web. Alcuni esempi di trattamento dei manoscritti e antichi testi a stampa

Il Web è diventato luogo di distribuzione dei risultati ottenuti in fase di digitalizzazione di fonti primarie. Sono sempre più numerosi gli enti (principalmente le biblioteche) che mettono a disposizione le immagini digitali di codici ritenuti particolarmente rilevanti. La digitalizzazione è essenziale non solo per consentire all’utenza di consultare manoscritti o fondi senza doversi fisicamente recare nei luoghi di conservazione, ma anche per preservare le fonti dall’usura della consultazione diretta.

Due sono i requisiti che progetti di questa natura dovrebbero soddisfare: distribuire immagini di elevata qualità, tali da sostituire la visione diretta degli esemplari; affiancare all’immagine digitale la descrizione del codice (descrizione interna ed esterna) secondo i principi di descrizione uniforme dei manoscritti, come definiti dall’Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni bibliografiche [15] . Solo a questo punto un fondo digitalizzato può consentire di dar vita ad una vera e propria biblioteca digitale.

Vediamo quindi innanzitutto quali sono gli elementi principali di una scheda catalografica per la descrizione di manoscritti e antichi testi a stampa [16] :

  1. individuazione dell’opera in questione (autore e titolo dell’opera oppure genere di riferimento [corale, antifonario, messale, libro d’ore, ecc.]);

  2. segnatura del manoscritto, apposta direttamente dall’ente, è l’identificativo univoco della fonte;

  3. sede di conservazione;

  4. origine (luogo di provenienza);

  5. indicazione cronologica, in alcuni casi si tratta di una data certa (per i manoscritti datati), più spesso viene dedotta dall’esame della decorazione e/o dei dati codicologici, nel qual caso si indica il secolo (in numeri romani) accompagnato dalla sigla in. per la parte iniziale, med. per quella centrale e des. per quella finale;

  6. materia  (generalmente membr. per le carte pergamenacee, cart. per quelle cartacee);

  7. dimensioni, espresse in millimetri, altezza per base, dedotte dalla media delle misurazioni effettuate su due o tre carte scelte a caso all’interno del manoscritto;

  8. carte ed individuazione delle numerazioni: generalmente si adotta la terminologia della scuola italiana, intendendo per carta una delle due parti solidali cui è composto il foglio; ogni carta ha un recto e un verso, che convenzionalmente si indicano con r e v; le carte di guardia vengono indicate con numeri romani e sono contrassegnate da un apice quelle collocate in calce al manoscritto; sono altresì accompagnate da un apice quelle carte che si ritengono essere state aggiunte successivamente al manoscritto o comunque che non sono considerate parte integrante del codice originale (I + 8’ + 244 + III’ ad esempio, sta a significare una carta di guardia, 8 carte aggiunte, 244 carte originali e 3 carte di guardia finali);

  9. tipo di scrittura, ossia tipo di grafia e colore dell’inchiostro impiegato;

  10. disposizione del testo: si precisa se è a piena pagina o su più colonne e il numero delle linee;

  11. legatura: materiali impiegati, se originale o meno ed eventuali intestazioni presenti sulla coperta o sul dorso;

  12. stato di conservazione: indicazione sommaria di danni, rifilature o mutilazioni subite dal codice e di interventi di restauro se documentati;

  13. note identificative: segnalazione di elementi certi raccolti all’interno del codice, utili all’identificazione del miniatore, del copista, del legatore, di antichi possessori, di committenti o di altri personaggi in qualche modo legati alla storia del manoscritto (colophon, ex libris, note di possesso, antiche segnature, timbri etc.);

  14. contenuto: voce di descrizione interna nella quale si precisa il tipo di opera (titolo ed autore se si tratta di un’opera conosciuta) e si individuano le diverse partizioni interne, con i relativi incipit ed explicit;

  15. decorazione: esame dell’apparato e del programma decorativo, ed elenco dettagliato degli interventi miniati secondo questa gerarchia: interventi isolati dal testo (ovvero riquadri  miniati, siano essi a piena pagina o meno), iniziali figurate ed iniziali decorate; eventualmente interventi di penna, ossia iniziali filigranate e capilettera;

  16. bibliografia specifica.

Esempio di Scheda catalografica

Esempio di Scheda catalografica secondo lo standard ICCU, 2002 realizzata da Paola Errani della Biblioteca Malatestiana di Cesena. Cfr. <http://www.malatestiana.it>.

Sant’Agostino, De Civitate Dei, c. 1r

AUGUSTINUS AURELIUS <SANTO>, De civitate Dei












Cesena, Biblioteca Malatestiana D.IX.1

1450 (c. 405v); membranaceo; cc. I, 405, I; cartulazione recente a matita nell'angolo superiore destro del recto.

Fascicolazione: I8 (cc. 1-8 ), II6 (cc. 9-14 ), III-XXXVIII10 (cc. 15-374), XXXIX-XLI8 (cc. 375-398), XLII8-1 (cc. 399-405); sempre rispettata la regola di Gregory (il fasc. I inizia col lato carne).

Foratura non rilevabile.

Rigatura a secco.

Dimensioni: 373x254x66 mm

Specchio rigato, righe e disposizione del testo: 40 righe di testo a piena pagina (41 righe tracciate di cui la prima non scritta).

Richiami sempre presenti al centro del margine inferiore dell'ultima carta del verso di ogni fascicolo, della stessa mano e dello stesso inchiostro del testo.

Scrittura di una sola mano: littera antiqua di Jacopo da Pergola, in inchiostro marrone, con incipit, explicit, titolo corrente e numero del capitolo corrente in inchiostro rosso.

Decorazione: iniziale figurata: c. 15r (lettera G in oro, ornata da un cordone turchino e da una ghirlanda di fogliami verdi, che racchiude la rappresentazione prospettica del Santo nello studio, con apertura di paesaggio; a c. 1r iniziale decorata con fregio a bianchi girari lungo il margine interno (lettera I, Interea); iniziali decorate (in forme capitali romane in risparmiato, o a cappio intrecciato, in finta orificeria o scultura, su fondo oro o a bianchi girari, o su targhe in scultura dipinta, con brevi fregi e decorazione umanistica a tralci, festoni, lacci, fiori, protomi ferine o umane): cc. 32r, S (Si rationi), 47r, I (Iam satis), 63r, D (De civitate), 78r, Q (Quoniam), 95v, Q (Quinque), 106r, D (Diligentius), 122r, N (Nunc), 139r, E (Et hos), 149r, O (Omnium), 169r, C (Civitatem), 184v, A (Antequam), 198v, E (Expeditis), 212v, D (Diximus), 228v, D (De felicitate), 248r, P (Post diluvium), 271r, P (Promissiones), 289r, D (De civitatum), 316r, Q (Quoniam), 334v, D (De die), 359v, C (Cum per yesum), 379r, S (Sicut) ; iniziali dorate e filigranate "de pennello" all'inizio di ogni capitolo; a c. 15r fregio su quattro lati con stemma di Malatesta Novello.

Rilegatura del XVIII secolo, con restauro parziale eseguito dal laboratorio dell'Abbazia di Santa Maria del Monte di Cesena; coperta in cuoio marocchino, decorata con impressioni a secco, su assi in legno; cucitura su cinque nervi doppi; capitelli in lino; cinque borchie in ferro quadrilobate per ogni piatto; due bindelle in cuoio con puntale in ottone sul margine davanti del piatto ant.; due tenoni in bronzo e ferro ottagonali sul margine davanti del piatto post.; catena in ferro assicurata al margine di piede del piatto post.

Stato di conservazione: pieghe alle cc. 59 e 143; tagli alle cc. 95 e 180; macchie di cera a c. 15; abrasioni nella coperta, rottura del refe di cucitura ai fascicoli I, III e XXIII, e lacerazione lungo la linea di cerniera, specialmente sul piatto post.

Autografo di Jacopo da Pergola (c. 405v): Scriptus per me Iacobum de pergula pro Magnifico & Potenti domino d. Malatesta nouello de malatis (sic) etc. quem compleui in ciuitate fani MCCCCL die X februarij.

Antiche segnature: I. fila / IX pluteo / I in ordine in inchiostro marrone nella controguardia ant.

Il volume fu eseguito per Malatesta Novello ed è quindi sempre stato conservato nella raccolta malatestiana cesenate.

AUGUSTINUS AURELIUS <SANTO>
1) Retractatio in libros De civitate Dei
c. 1r
Incipit: Interea Roma Gothorum irruptione
Explicit: hoc opus sic incipit. Gloriosam civitatem dei
2) De civitate Dei
cc. 1v-405v
c. 1v: Incipiunt capitula primi libri. De aduersariis nominis christi
c. 14v: De eterna felicitate ciuitatis dei Sabbatoque perpetuo.
c. 15r: Rubrica Beatissimi Aurelii Augustini de civitate dei liber primus incipit. Ad Marcellinum
cc. 15r-405v
Incipit: Gloriosissimam civitatem Dei sive in hoc temporum cursu
Explicit: Quibus autem sat est non mihi sed deo me cum gratias gratulantes agant. De civitate Dei liber XXII explicit feliciter.

Esempi di raccolte iconografiche

  1. la biblioteca digitale della Biblioteca Ambrosiana di Milano, <http://www.
    ambrosiana.it
    /ita/digitale.asp
    >, che allo stato attuale riporta:

  2. il progetto di digitalizzazione di alcuni manoscritti appartenenti ai fondi storici della Biblioteca Nazionale Centrale di Firenze (Magliabechiano, Palatino, Banco Rari, Rari, Galileiano, Nazionale, Cappugi, Nuovi Acquisti). 
    Cfr. <http://www.bncf.firenze.sbn.it/
    Bib_digitale
    /Manoscritti/home.html
    >.
  1. La Biblioteca Digitale della Biblioteca Nazionale di Napoli, <http://www.bnnonline.it/
    biblvir/bibdig.htm
    >, che, allo stato attuale, ha messo a disposizione i Canti leopardiani (manoscritti autografi della biblioteca) [Immagine del manoscritto leopardiano c. 1r, C.L.XIII.22] e “Leggere per immagini, il libro illustrato a Napoli nell'età del viceregno spagnolo (1503-1707)”.
  2. Il catalogo dei  manoscritti della Biblioteca Malatestiana di Cesena <http://www.malatestiana.it/
    manoscritti/index.htm
    >.
  3. Le “immagini” della Biblioteca Estense di Modena, <http://www.cedoc.mo.it/
    estense/mss/
    index.html
    >, che riguardano: codici manoscritti, carte e mappe, vedute della città di Modena, mostre (Astrologia, Cartografia, Dante, Estensi, Giardini, Leggenda Aurea) e stemmi. [Immagine c. 6r del De Spera, Lat. 209].
  4. il progetto Amanuense, <http://www.amanuense.it/>,  per la digitalizzazione dei fondi di alcune biblioteche nazionali: 
    • Biblioteca comunale di Montecatini Terme (Fondo Venturi)
    • Biblioteca degli Intronati di Siena (Il Catalogo Ilari)
    • Gabinetto Vieusseux di Firenze (Libro dei soci)
    • Biblioteca Forteguerriana di Pistoia (La scuola in mostra)
    • Biblioteca degli Uffizi (Il discorso sopra le gemme intagliate, Il catalogo della Galleria, Fondo Carocci)
    • Biblioteca Nazionale Centrale di Firenze (Associazionismo in Toscana tra ‘800 e ‘900)
    • Unione Femminile Nazionale (La rivista “Unione Femminile”)


  5. Una decorazione della Bibbia I progetti legati alla Bibbia di Gutenberg (fra cui <http://prodigi.bl.uk/
    gutenbg/search.asp
    >)

  6. I manoscritti della Commedia di Dante [Immagine Codice Riccardiano 1035, c.4r”], messi in linea con la consulenza scientifica della Società Dantesca Italiana, all’indirizzo <http://www.danteonline.it/
    italiano/codici_indice.htm
    >.  Le immagini digitali sono corredate da schede catalografiche di altissimo livello.
  7. Il progetto CEEC (Codices Electronici Ecclesiae Coloniensis) di digitalizzazione dei codici del Vescovo di Colonia [Immagine pagina di apertura del sito]. E’ il più interessante progetto di implementazione di una banca dati dinamica che associa dettagliate descrizioni ad immagini digitali ad altissima risoluzione. Cfr. <http://www.ceec.uni-koeln.de>

  8. Icona del progetto
    Il Digital Scriptorium dell’Università di Berkeley <http://sunsite.berkeley.edu/
    Scriptorium
    >, una ricchissima banca dati iconografica di manoscritti medievali e rinascimentali di varie biblioteche statunitensi.

  9. Icona del progetto
    Progetto IMAGO, <http://www.ibc.regione.
    emilia-romagna.it/
    soprintendenza/htm/imago.htm
    >, catalogo collettivo di opere grafiche (stampe, disegni, fotografie, manifesti, figurine, etc.) appartenenti ad alcune istituzioni emiliano-romagnole. E’ data la possibilità di effettuare ricerche sul corpus: 
    • a partire da alcuni descrittori (come il soggetto o la classificazione)
    • a partire da liste precostituite (come il nome dell’autore o il titolo)
    • effettuando una ricerca libera (parole chiave)

L’interrogazione sortisce la descrizione catalografica associata all’immagine digitale.

La maschera di interrogazione:

 Indietro

Invia la pagina per e-mail

 



 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

Note

[14] Ovviamente altra cosa sarà la codifica del testo; l’OCR si limita a tradurre la pagina stampata in una sequenza di caratteri ASCII, sarà poi compito del codificatore rappresentare tutta quella serie di fenomeni che l’OCR non è in grado di interpretare: posizione dei segni nell’impaginazione, diversità grafiche dei segni, concretizzazione della struttura logica del testo, ecc. (cfr. sezione 6 sui linguaggi di codifica).

[15] Cfr. Elenco dettagliato di elementi per la descrizione del manoscritto in Guida a una descrizione uniforme dei manoscritti e al loro censimento, ICCU, Roma 1990. Un testo fondamentale per l’apprendimento delle strategie utili alla descrizione dei manoscritti è A. Petrucci, La descrizione del manoscritto. Storia, problemi, modelli,
seconda edizione corretta e aggiornata, Carocci, Roma 2001. Si reputa poi utile la consultazione di M. Maniaci, Terminologia del libro manoscritto, 1 ristampa corretta, Istituto centrale per la patologia del libro, Roma, Bibliografica, Milano, 1998.

[16] La possibilità di effettuare una corretta descrizione è direttamente proporzionale alle competenze acquisite in campo di codicologia, cioè di studio della forma libro e delle caratteristiche estrinseche della fonte, paleografia, cioè di studio dell’evoluzione delle scritture, di storia della miniatura, cioè di analisi delle caratteristiche dell’ornamentazione (cfr. anche sezione 10).

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica