5. Principi di digitalizzazione di testo e immagini

Premessa

Si ritiene essenziale fornire alcune nozioni relative ai principi che governano la pratica della digitalizzazione, come esempio di quanto le nuove tecnologie consentano di manifestare le loro potenzialità in ambito umanistico.

Le possibilità che la pratica della multimedialità esplica in ogni ambito dell’informatica si propongono come un suggestivo modello per realizzazioni innovative. In ambito letterario, non solo l’immagine digitalizzata di un testo può renderne più agevole la circolazione, ma consente di realizzare una nuova forma di edizione digitale, ottenuta affiancando all’immagine la relativa trascrizione.

Digitalizzare una fonte può avere un duplice significato: la digitalizzazione come riproduzione di una copia esatta dell’originale (facsimile) e quindi file di immagine; la digitalizzazione come operazione di riconoscimento ottico della fonte di partenza e quindi conversione della fonte cartacea in set di caratteri ASCII cioè file di testo. Ovviamente la scelta dipenderà non solo dal tipo di originale [1] ma anche dal tipo di trattamento cui si intende sottoporre la fonte una volta realizzata le versione elettronica.

Questa parte del manuale intende fornire alcune indicazioni sui principi di digitalizzazione che governano l’elaborazione della fonte per riprodurne la sua versione digitale sottoforma di immagine. Solo il paragrafo finale tratta dei sistemi di cattura che permettono di convertire un documento nel suo corrispettivo elettronico in formato testo.

5.1 Principi teorici. Scansione e cattura delle immagini

L’architettura di ogni elaboratore elettronico è composta, semplificando, dalle seguenti parti: una o più unità o periferiche di input, cioè di ingresso dei dati (come per esempio la tastiera dell’elaboratore), un’unità centrale di calcolo (la CPU - Central Processing Unit), una memoria di massa (dove vengono immagazzinati i dati) [2] e una o più unita di output, cioè di uscita dei dati elaborati (per esempio lo schermo dell’elaboratore o la stampante) [3] .

Le unità di input-output hanno la funzione di istituire il contatto comunicativo della macchina con gli agenti esterni, nella fattispecie l’uomo o altre macchine, e dunque si possono considerare come le interfacce tra l’elaboratore e il mondo esterno. Le unità di input, nello specifico, hanno il compito di ricevere le informazioni dall’operatore e quindi da un agente esterno, e di codificarle in una struttura adeguata alle esigenze di elaborazione dell’unità centrale. Poiché l’unità centrale della macchina è in grado di comprendere e manipolare esclusivamente i due simboli della notazione numerica binaria (0,1), le unità di input hanno la funzione di digitalizzare i dati in ingresso secondo una codifica di tipo binario. La digitalizzazione si configura quindi come un processo di memorizzazione di un documento attraverso la sua conversione in una sequenza di caratteri numerici binari ciascuno dei quali corrisponde ad una porzione del documento originale. 

Lo strumento usato in fase di digitalizzazione è lo scanner [4] .

Lo scanner funziona sostanzialmente come una fotocopiatrice, riproducendo sullo schermo dell’elaboratore un’immagine digitale assolutamente analoga a quella dell’esemplare d’origine. Un’immagine digitale altro non è quindi che la rappresentazione al computer di un oggetto (un testo a stampa o manoscritto, una fotografia, un microfilm ecc.) la quale, dopo essere stata acquisita nella memoria dell’elaboratore tramite lo scanner (o tramite un altro dispositivo di cattura), può essere in vari modi manipolata dall’operatore.

5.2 Il concetto di pixel  - tipi di immagine e risoluzione

Tutti i sistemi di digitalizzazione [5] lavorano dividendo l’immagine in una serie di punti, assegnando a ciascuno di essi un valore, definito per mezzo di una sequenza numerica binaria, per poi memorizzare i valori dei punti in forma sequenziale nel computer. L’elaboratore è in grado di ricostruire l’immagine leggendo questi valori e riproducendoli sullo schermo, mantenendo l’ordinamento dei punti dell’originale, e rispettando il loro corrispettivo valore. Ogni punto è denominato, in linguaggio informatico, pixel o picture element. La gamma di valori che ogni singolo pixel può assumere è chiamata profondità del pixel (pixel depth) o profondità dell’immagine.

Diremo che ogni immagine digitale può essere modificata in due differenti modi: o variando (aumentando o diminuendo) il numero dei punti costituenti l’immagine, o variando la profondità del pixel e cioè la gamma di valori associata ad ogni singolo punto.

Vediamo dunque cosa significa e cosa implica la variazione della profondità dei pixel.

Nel più semplice caso di digitalizzazione, e cioè del trattamento di un’immagine binaria, la gamma di valori dei punti o pixel è limitata: essendo tale immagine dotata di soli due colori, il bianco e il nero, anche i pixel assumono solo due valori: o 0 o 1 cioè o nero (assenza della luce) o bianco (indicante presenza di luce). Si tratta di immagini ad 1 bit, con profondità del pixel equivalente a 2.

Anche nel caso specifico delle immagini binarie l’elaboratore è però in grado di creare l’illusione del grigio, raggruppando in celle pixel bianchi e neri, secondo una procedura cosiddetta di dithering, e facendo in modo che l’occhio percepisca la sfumatura del grigio invece che del bianco frammisto al nero. È comunque sicuramente una migliore soluzione non limitare a due il numero dei valori associati ai pixel, ma aumentarne la profondità ottenendo così le greyscale images, immagini a tonalità o livelli di grigio: in questo caso invece dei valori o nero o bianco (0 o 1), ogni pixel avrà uno dei differenti livelli di grigio, dove ad ogni valore corrisponderà un differente tono di grigio. Per esempio ogni singolo pixel può avere quattro valori: bianco (11), grigio chiaro (10), grigio scuro (01), nero (00). In questo caso abbiamo un immagine a due bit per ogni pixel, con profondità del pixel equivalente a quattro (22). Ovviamente maggiore è il numero dei bit che assegniamo ad ogni punto, più numerosi sono i toni di grigio in cui l’immagine si può tradurre, cioè maggiore è la profondità del pixel. Generalmente una greyscale image usa fino a 8 bit (e cioè 1 byte) per ogni punto, questo significa fino a 256 possibili livelli di grigio associati all’immagine, cioè una profondità del pixel che può arrivare a 256 (28).

Nel caso della digitalizzazione di un’immagine a colori, lo scanner, dopo aver diviso l’immagine in pixels, misura il colore di ogni punto, assegnando ad esso un valore; il numero di colori che la macchina è in grado di riconoscere è determinato dal numero dei bit impiegati per ogni punto. Per esempio, in un’immagine a 8 bit, ogni pixel può avere uno dei 256 possibili valori, cioè di sfumature, di colore (28). In un’immagine a 24 bit ci sono un totale di 16,7 milioni di livelli di colore (224); in particolare nel formato RGB (Red, Green and Blue) il colore di ogni singolo pixel è dato da tre valori di 8 bit ciascuno [6] : uno è la quantità di rosso, uno la quantità di verde, il terzo la quantità di blu. I tre valori combinati forniscono il colore del pixel che costituisce l’immagine [7]

Un altro modo per variare l’immagine digitale è aumentare o diminuire il numero dei punti in cui è divisa, cioè il numero dei punti impiegati dall’immagine per rappresentare sull’elaboratore l’oggetto originale. Il termine dpi, dots per inch, che significa punti per pollice, è l’unità di misura comunemente impiegata per misurare il numero di pixel presenti nell’immagine digitale, relativi ad ogni pollice lineare, in direzione orizzontale e verticale, dell’oggetto originale [8] .

Maggiore è il numero di pixel presenti in ogni pollice, maggiore sarà la risoluzione [9] dell’immagine digitale, vale a dire la sua fedeltà all’oggetto originale. La risoluzione è però direttamente proporzionale allo spazio occupato, nella memoria dell’elaboratore, dall’immagine digitale, essa dipende cioè dal numero di dpi con cui scegliamo di operare la scansione dell’immagine d’origine: più alta è la risoluzione, migliore sarà la resa dell’immagine digitale, ma maggiore sarà il numero dei dpi occorrenti e quindi la dimensione del file necessario a contenere l’immagine così ottenuta [10] .

5. 3 I formati dei file

Un modo per contenere l’elevata occupazione di memoria delle immagini digitali è convertirle dal formato standard al formato compresso che consente una migliore gestione del materiale elettronico. Non esistendo però uno standard nel campo della compressione delle immagini digitali si necessità di continui aggiornamenti, per adeguarsi alle progressive evoluzioni tecnologiche nel settore che conducono alla nascita di sempre innovative tecniche. Questo richiede la conversione delle immagini compresse tramite il vecchio procedimento in immagini compresse secondo la nuova tecnica.

Ma quello che si configura come lo svantaggio più pericoloso nel campo della compressione del materiale digitale è l’inevitabile perdita di informazione che tale operazione comporta: una volta compressi i dati, all’atto della decompressione non tutti i file fondamentali al recupero dell’immagine d’origine vengono ripristinati; la perdita di dati informazionali è uno degli inconvenienti che più di frequente limita il lavoro dello studioso, e dovrebbe essere dunque sempre ridotta al minimo. La compressione dei dati, e la conseguente successiva decompressione non agevola certo, in questo senso, l’attività computazionale, in quanto la decompressione non garantisce il totale recupero dei dati.

Di fronte a questi svantaggi esistono però innegabili vantaggi: le immagini digitali non decadono nel tempo, sono infatti destinate a durare a lungo, nella copia, che non comporta perdita di qualità, e nell’uso, possono essere cioè consultate molteplici volte senza subire alcun danneggiamento.

È possibile definire alcuni tipi di formati di file. Quando si salva, dopo la scansione, un’immagine digitale può essere salvata in vari e differenti formati [11] , a seconda della destinazione finale del file (web per la distribuzione on-line o archiviazione off-line). Allo stato attuale i formati utilizzati sono quindi o compressi (con o senza perdita di dati: GIF, JPEG, PNG) o privi di compressione (TIFF). Sono i più comuni formati di immagine in quanto sono gestibili tra piattaforme hardware e software differenti. Vediamo nel dettaglio:

GIF (estensione *.gif): Questo formato è soggetto ad una compressione che non comporta alcuna perdita di dati e consente la creazione di animazioni all'interno del formato, rendendo trasparente uno dei colori della composizione. Ciò può essere utile per creare profili di immagini. L'inconveniente è che il formato GIF memorizza solo 256 colori. Di conseguenza, le sottili ombreggiature all'interno di un'immagine vengono rese come bande di diversa densità. Il formato è adatto a pulsanti e intestazioni (la qualità degli elementi tipografici resta invariata), GIF animati, profili, fotografie in bianco e nero (che di solito presentano 256 livelli di grigio). Non è invece adatto alle fotografie a colori.

JPEG (estensione *.jpg): Messo a punto da JPEG (Joint Photographic Expert Group), questo formato consente di visualizzare fino a 16,7 milioni di colori. Non è possibile creare animazioni, né definire colori trasparenti. La compressione comporta la perdita di dati. La perdita di qualità è legata ad un livello di compressione particolarmente elevato (un rapporto di 50:1). È chiaro che una compressione minore inciderebbe in maniera meno significativa sul livello di qualità. È possibile eliminare del tutto la compressione selezionando un livello pari a zero, ma ciò comporta tempi di scaricamento inevitabilmente maggiori. Il formato è adatto per le fotografie a colori. Non è invece adatto ad immagini contenenti elementi tipografici o geometrici. È inutilizzabile per la creazione di profili o animazioni.
PNG (estensione *.png): Il formato PNG (Portable Network Graphics), di più recente sviluppo, non presenta gli inconvenienti dei due formati precedenti, riunendone piuttosto tutti i vantaggi. Consente una visualizzazione da 256 a 16,7 milioni di colori, può essere compresso senza generare alcuna perdita di dati e supporta 256 livelli di trasparenza. L'aspetto negativo è limitato all'impossibilità di creare animazioni. Inoltre, essendo PNG un formato relativamente recente, non è riconosciuto dai browser Web delle generazioni precedenti. È indubbio, tuttavia, che si tratti di un formato destinato al successo.

TIFF(estensione *.tif o *.tiff): Il formato TIFF produce immagini di elevata qualità ed è quindi utilizzato di frequente nella pubblicazione. Questo formato è in grado di visualizzare 16,8 milioni di colori, anche se le immagini con gradazioni di grigio sono limitati a 256 colori o sfumature, e, in genere, produce file di immagini di maggiori dimensioni rispetto al formato GIF o JPEG. Se si intende modificare un'immagine in un programma diverso da quello in cui l'immagine è stata creata, risulta utile salvare l'immagine in questo formato, in quanto è supportato da numerose applicazioni. Non è un formato però compatibile con il Web.

5.4 Tecniche di gestione delle immagini digitali

La digitalizzazione offre, assieme alla conservazione dell’originale che lo preserva dall’usura, la possibilità di migliorare il grado di leggibilità del testo originale, grazie alle tecniche di image enhancement (miglioramento dell’immagine) che consentono di intervenire in quelle zone del documento che risultano scarsamente leggibili (per via, ad esempio, di una macchia di inchiostro, del foxing, di un agente decolorante, di abrasioni, cancellature, riscritture), fondandosi sulla consapevolezza che la componente numerica dell’immagine digitale può essere in vario modo modificata [12]

È chiaro che esistono differenti tipi di materiali che possono essere sottoposti a scansione, ed ognuno di essi richiede un’appropriata strategia di digitalizzazione al fine di ottenere risultati soddisfacenti. Diremo che possiamo dividere tale materiale in tre grandi sezioni: materiale in “bianco e nero” (black and white), come testi a stampa, giornali o disegni al tratto; materiale in “scala di grigi” (greyscale) come fotografie monocrome o fotografie di giornali; materiale “a colori” (colour) in cui includeremo, oltre ai disegni e alle fotografie a colori, anche i manoscritti e tutto ciò che è scritto a mano. Ovviamente a seconda dell’obiettivo che intendiamo raggiungere con la digitalizzazione possiamo produrre tre livelli qualitativi (basso, medio, alto) dell’immagine. È dunque necessario chiarire, innanzitutto, gli scopi della digitalizzazione: se cioè l’obiettivo si configura di carattere meramente conservativo (preservare la fonte dall’usura) o se l’ambizione è di consentire una fruizione generalizzata dell’immagine e quindi di permettere di effettuare su di essa indagini, ricerche e studi approfonditi.

Come già detto, la qualità di un’immagine digitale può essere modificata in due modi: alterando il numero dei pixel dell’immagine (dpi) o alterando la gamma di valori di cui ogni pixel è dotato (profondità del pixel).

È necessario rilevare che la relazione tra la qualità dell’immagine e la combinazione di dpi e profondità del pixel non è lineare: per i materiali in bianco e nero aumentare la profondità del pixel (o la gamma di colori) non conduce ad un miglioramento della qualità dell’immagine, ma solo ad una maggiore occupazione di spazio in memoria, sarà dunque un’adeguata strategia limitarsi ad aumentare il numero dei dpi; per i materiali in scala di grigi, ottenere la migliore resa digitale della fonte significa aumentare la profondità del pixel e quindi la gamma di valori, cioè di toni di grigio, associati ad ogni pixel (8 bit, equivalenti a 256 livelli di grigio); nel caso dei materiali manoscritti, anche se in bianco e nero, è sufficiente mantenere una bassa risoluzione (circa 100 dpi) con alcuni colori (per esempio 16) e si otterrà un’immagine migliore rispetto ad una presa con alta risoluzione (per esempio 600 dpi) ma senza colori. La strategia migliore consiste quindi nell’operare una scansione dei materiali manoscritti trattandoli come immagini a colori; questo consentirà di evidenziare eventuali differenti tipi di inchiostro presenti nell’originale, diverse mani che hanno contribuito all’opera di scrittura, ecc., dati che risultano maggiormente evidenti in una scansione a colori piuttosto che in una in scala di grigi. Per questo ogni materiale richiede un’opportuna strategia di scansione [13] .

Sarà allora necessario sottolineare che quando si opera la scansione di una fonte si ottiene nell’elaboratore la corrispettiva immagine digitale; nel caso specifico di documenti testuali, questo non significa però avere il testo nell’elaboratore, ma solo la sua immagine.

5.5 Cattura delle immagini e OCR

Per testo intenderemo certo una sequenza di valori numerici, o, più precisamente, una sequenza di caratteri, ciascuno compreso dall’elaboratore come una sequenza di valori numerici, correlati alle lettere del testo e dunque manipolabili dall’utente. Quando ci troviamo a gestire materiali testuali, trattiamo però un tipo di dato differente dal dato caratterizzante l’immagine.

Mentre nell’immagine la sequenza dei valori numerici 0 e 1 definisce il colore proprio di ogni singolo pixel, nel testo la medesima sequenza si riferisce ad un carattere alfabetico. Se l’obiettivo della scansione contempla obiettivi di ricerca, di analisi o di indagine, ciò che ci interessa avere sulla macchina non è un’immagine digitale, ma un testo in formato digitale, cosa che consente di interagire significativamente con la fonte.

Attualmente i moderni software di accompagnamento degli scanner, i cosiddetti pacchetti applicativi OCR, permettono di realizzare quel passaggio dall’immagine al testo; il riconoscimento dei caratteri alfanumerici da parte degli OCR avviene in quanto tali software sono in grado di associare ad ogni porzione del testo, riconosciuta dallo scanner come un’immagine, un singolo carattere (avendo l’immagine della lettera “a” il programma è in grado di riconoscere il carattere “a”) trasformando quindi l’immagine digitale in un testo ASCII [14] . Attualmente però il procedimento di OCR non è giunto a livelli ottimali e quindi il risultato della scansione non è totalmente affidabile, necessita cioè di accurate revisioni.

 Il primo inconveniente è costituito dal fatto che l’immagine d’origine deve essere perfetta: ove occorrano imperfezioni nella stampa originale, come macchie sulla carta, il sistema non è in grado di ricostruire la lettera in questione, scambiandola con un’altra lettera. Altro inconveniente è costituito dal fatto che seppure il sistema è spesso in grado di riconoscere certe particolarità della polizza, cioè del font, (corsivo, grassetto, ecc.) tali particolarità non vengono registrate nel file prodotto, che contiene i caratteri alfabetici corrispondenti senza alcuna discriminazione. 

Lo stesso valga per quei dispositivi in grado di digitalizzare automaticamente microfilm, molto utili per la creazione di archivi di immagini digitali di testi manoscritti o incunaboli; ma le tecnologie di riconoscimento automatico dei caratteri, i cosiddetti ICR, Intelligent Character Recognition, pacchetti software più sofisticati degli OCR, non sono in grado di confrontarsi con risultati soddisfacenti con questo tipo di sorgenti.

Agli inconvenienti degli OCR, si è cercato infatti di ovviare con gli ICR, pacchetti che basano i loro procedimenti anche su un patrimonio di conoscenze in grado di crescere in modo automatico durante l’attuazione di procedimenti stessi. In particolare gli ICR sono stati dotati di dizionari di riscontro, in base ai quali riconoscere sequenze di lettere come lecite, e ricostruire al loro interno le eventuali singole lettere non riconosciute. In conseguenza poi di questa “esperienza” essi possono imparare le idiosincrasie dei font con cui sono confrontati. Inoltre gli ICR sono stati messi in grado di analizzare meglio l’immagine digitalizzata, in modo da riconoscerne alcune strutture dell’impaginazione dei testi, escludendo, per esempio, le figure, ovvero trattando a parte delle finestre estranee al testo principale; sono stati poi forniti della capacità di inserire nel file prodotto elementi di codifica che avvertano dell’esistenza delle particolarità sopra menzionate.

La prospettiva di raccogliere un numero sempre maggiore di testi in MRF per compiere osservazioni, analisi e sperimentazioni sui testi mediante procedimenti informatici è certo entusiasmante. Affidare il compito di trascrizione ad una macchina sembra risolvere il grande problema preliminare di trasferimento dei testi su supporto magnetico. In realtà per utilizzare scientificamente i testi occorre ben altro: il prodotto offerto dagli ICR non pare soddisfacente; grande è la distanza fra la capacità di riconoscere le sequenze di caratteri costituenti un testo e la capacità di riprodurre su supporto magnetico il testo stesso, del quale i caratteri sono soltanto uno degli elementi costitutivi. 

Un’ultima puntualizzazione. È assolutamente consigliabile che, all’atto della scansione, si eliminino tutti gli eventuali passaggi che possono intercorrere tra l’originale e la sua corrispettiva immagine digitale. Per ottenere un’immagine di buona qualità la digitalizzazione andrebbe operata direttamente sull’oggetto originale, ma generalmente avviene che la scansione sia fatta su di una fonte intermediaria. Il caso più diffuso è quello della scansione di un microfilm, necessaria di fronte ad una fonte manoscritta che potrebbe essere danneggiata all’atto di una digitalizzazione effettuata direttamente sull’originale. In questo caso, generalmente, il manoscritto viene microfilmato ed è poi il microfilm ad essere trasformato in immagine digitale.

Siamo di fronte alla cosiddetta catena della digitalizzazione: più passaggi sono presenti all’interno di tale catena, peggiore sarà l’immagine digitale e quindi maggiore la sua differenza rispetto all’originale, cioè maggiore la perdita di informazione.

APPENDICE: Le immagini digitali e il Web. Alcuni esempi di trattamento dei manoscritti e antichi testi a stampa

Il Web è diventato luogo di distribuzione dei risultati ottenuti in fase di digitalizzazione di fonti primarie. Sono sempre più numerosi gli enti (principalmente le biblioteche) che mettono a disposizione le immagini digitali di codici ritenuti particolarmente rilevanti. La digitalizzazione è essenziale non solo per consentire all’utenza di consultare manoscritti o fondi senza doversi fisicamente recare nei luoghi di conservazione, ma anche per preservare le fonti dall’usura della consultazione diretta.

Due sono i requisiti che progetti di questa natura dovrebbero soddisfare: distribuire immagini di elevata qualità, tali da sostituire la visione diretta degli esemplari; affiancare all’immagine digitale la descrizione del codice (descrizione interna ed esterna) secondo i principi di descrizione uniforme dei manoscritti, come definiti dall’Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni bibliografiche [15] . Solo a questo punto un fondo digitalizzato può consentire di dar vita ad una vera e propria biblioteca digitale.

Vediamo quindi innanzitutto quali sono gli elementi principali di una scheda catalografica per la descrizione di manoscritti e antichi testi a stampa [16] :

  1. individuazione dell’opera in questione (autore e titolo dell’opera oppure genere di riferimento [corale, antifonario, messale, libro d’ore, ecc.]);

  2. segnatura del manoscritto, apposta direttamente dall’ente, è l’identificativo univoco della fonte;

  3. sede di conservazione;

  4. origine (luogo di provenienza);

  5. indicazione cronologica, in alcuni casi si tratta di una data certa (per i manoscritti datati), più spesso viene dedotta dall’esame della decorazione e/o dei dati codicologici, nel qual caso si indica il secolo (in numeri romani) accompagnato dalla sigla in. per la parte iniziale, med. per quella centrale e des. per quella finale;

  6. materia  (generalmente membr. per le carte pergamenacee, cart. per quelle cartacee);

  7. dimensioni, espresse in millimetri, altezza per base, dedotte dalla media delle misurazioni effettuate su due o tre carte scelte a caso all’interno del manoscritto;

  8. carte ed individuazione delle numerazioni: generalmente si adotta la terminologia della scuola italiana, intendendo per carta una delle due parti solidali cui è composto il foglio; ogni carta ha un recto e un verso, che convenzionalmente si indicano con r e v; le carte di guardia vengono indicate con numeri romani e sono contrassegnate da un apice quelle collocate in calce al manoscritto; sono altresì accompagnate da un apice quelle carte che si ritengono essere state aggiunte successivamente al manoscritto o comunque che non sono considerate parte integrante del codice originale (I + 8’ + 244 + III’ ad esempio, sta a significare una carta di guardia, 8 carte aggiunte, 244 carte originali e 3 carte di guardia finali);

  9. tipo di scrittura, ossia tipo di grafia e colore dell’inchiostro impiegato;

  10. disposizione del testo: si precisa se è a piena pagina o su più colonne e il numero delle linee;

  11. legatura: materiali impiegati, se originale o meno ed eventuali intestazioni presenti sulla coperta o sul dorso;

  12. stato di conservazione: indicazione sommaria di danni, rifilature o mutilazioni subite dal codice e di interventi di restauro se documentati;

  13. note identificative: segnalazione di elementi certi raccolti all’interno del codice, utili all’identificazione del miniatore, del copista, del legatore, di antichi possessori, di committenti o di altri personaggi in qualche modo legati alla storia del manoscritto (colophon, ex libris, note di possesso, antiche segnature, timbri etc.);

  14. contenuto: voce di descrizione interna nella quale si precisa il tipo di opera (titolo ed autore se si tratta di un’opera conosciuta) e si individuano le diverse partizioni interne, con i relativi incipit ed explicit;

  15. decorazione: esame dell’apparato e del programma decorativo, ed elenco dettagliato degli interventi miniati secondo questa gerarchia: interventi isolati dal testo (ovvero riquadri  miniati, siano essi a piena pagina o meno), iniziali figurate ed iniziali decorate; eventualmente interventi di penna, ossia iniziali filigranate e capilettera;

  16. bibliografia specifica.

Esempio di Scheda catalografica

Esempio di Scheda catalografica secondo lo standard ICCU, 2002 realizzata da Paola Errani della Biblioteca Malatestiana di Cesena. Cfr. <http://www
.malatestiana.it
>.

[Immagine di Sant’Agostino, De Civitate Dei, c. 1r]

[AUGUSTINUS AURELIUS <SANTO>, De civitate Dei] [inserire immagine Agostino_c1r.jpg alt=”Sant’Agostino, De Civitate Dei, c. 1r”]

[Cesena, Biblioteca Malatestiana] D.IX.1

1450 (c. 405v); membranaceo; cc. I, 405, I; cartulazione recente a matita nell'angolo superiore destro del recto.

Fascicolazione: I8 (cc. 1-8 ), II6 (cc. 9-14 ), III-XXXVIII10 (cc. 15-374), XXXIX-XLI8 (cc. 375-398), XLII8-1 (cc. 399-405); sempre rispettata la regola di Gregory (il fasc. I inizia col lato carne).

Foratura non rilevabile.

Rigatura a secco.

Dimensioni: 373x254x66 mm

Specchio rigato, righe e disposizione del testo: 40 righe di testo a piena pagina (41 righe tracciate di cui la prima non scritta).

Richiami sempre presenti al centro del margine inferiore dell'ultima carta del verso di ogni fascicolo, della stessa mano e dello stesso inchiostro del testo.

Scrittura di una sola mano: littera antiqua di Jacopo da Pergola, in inchiostro marrone, con incipit, explicit, titolo corrente e numero del capitolo corrente in inchiostro rosso.

Decorazione: iniziale figurata: c. 15r (lettera G in oro, ornata da un cordone turchino e da una ghirlanda di fogliami verdi, che racchiude la rappresentazione prospettica del Santo nello studio, con apertura di paesaggio; a c. 1r iniziale decorata con fregio a bianchi girari lungo il margine interno (lettera I, Interea); iniziali decorate (in forme capitali romane in risparmiato, o a cappio intrecciato, in finta orificeria o scultura, su fondo oro o a bianchi girari, o su targhe in scultura dipinta, con brevi fregi e decorazione umanistica a tralci, festoni, lacci, fiori, protomi ferine o umane): cc. 32r, S (Si rationi), 47r, I (Iam satis), 63r, D (De civitate), 78r, Q (Quoniam), 95v, Q (Quinque), 106r, D (Diligentius), 122r, N (Nunc), 139r, E (Et hos), 149r, O (Omnium), 169r, C (Civitatem), 184v, A (Antequam), 198v, E (Expeditis), 212v, D (Diximus), 228v, D (De felicitate), 248r, P (Post diluvium), 271r, P (Promissiones), 289r, D (De civitatum), 316r, Q (Quoniam), 334v, D (De die), 359v, C (Cum per yesum), 379r, S (Sicut) ; iniziali dorate e filigranate "de pennello" all'inizio di ogni capitolo; a c. 15r fregio su quattro lati con stemma di Malatesta Novello.

Rilegatura del XVIII secolo, con restauro parziale eseguito dal laboratorio dell'Abbazia di Santa Maria del Monte di Cesena; coperta in cuoio marocchino, decorata con impressioni a secco, su assi in legno; cucitura su cinque nervi doppi; capitelli in lino; cinque borchie in ferro quadrilobate per ogni piatto; due bindelle in cuoio con puntale in ottone sul margine davanti del piatto ant.; due tenoni in bronzo e ferro ottagonali sul margine davanti del piatto post.; catena in ferro assicurata al margine di piede del piatto post.

Stato di conservazione: pieghe alle cc. 59 e 143; tagli alle cc. 95 e 180; macchie di cera a c. 15; abrasioni nella coperta, rottura del refe di cucitura ai fascicoli I, III e XXIII, e lacerazione lungo la linea di cerniera, specialmente sul piatto post.

Autografo di Jacopo da Pergola (c. 405v): Scriptus per me Iacobum de pergula pro Magnifico & Potenti domino d. Malatesta nouello de malatis (sic) etc. quem compleui in ciuitate fani MCCCCL die X februarij.

Antiche segnature: I. fila / IX pluteo / I in ordine in inchiostro marrone nella controguardia ant.

Il volume fu eseguito per Malatesta Novello ed è quindi sempre stato conservato nella raccolta malatestiana cesenate.

AUGUSTINUS AURELIUS <SANTO>
1) Retractatio in libros De civitate Dei
c. 1r
Incipit: Interea Roma Gothorum irruptione
Explicit: hoc opus sic incipit. Gloriosam civitatem dei
2) De civitate Dei
cc. 1v-405v
c. 1v: Incipiunt capitula primi libri. De aduersariis nominis christi
c. 14v: De eterna felicitate ciuitatis dei Sabbatoque perpetuo.
c. 15r: Rubrica Beatissimi Aurelii Augustini de civitate dei liber primus incipit. Ad Marcellinum
cc. 15r-405v
Incipit: Gloriosissimam civitatem Dei sive in hoc temporum cursu
Explicit: Quibus autem sat est non mihi sed deo me cum gratias gratulantes agant. De civitate Dei liber XXII explicit feliciter.

Esempi di raccolte iconografiche

[Copertina del Codice Atlantico]

  1. la biblioteca digitale della Biblioteca Ambrosiana di Milano, <http://www.
    ambrosiana.it
    /ita/digitale.asp
    >, che allo stato attuale riporta:

  2. il progetto di digitalizzazione di alcuni manoscritti appartenenti ai fondi storici della Biblioteca Nazionale Centrale di Firenze (Magliabechiano, Palatino, Banco Rari, Rari, Galileiano, Nazionale, Cappugi, Nuovi Acquisti). 
    Cfr. <http://www.bncf.firenze.sbn.it/
    Bib_digitale
    /Manoscritti/home.html
    >.
  1. La Biblioteca Digitale della Biblioteca Nazionale di Napoli, <http://www.bnnonline.it/
    biblvir/bibdig.htm
    >, che, allo stato attuale, ha messo a disposizione i Canti leopardiani (manoscritti autografi della biblioteca) [Immagine del manoscritto leopardiano c. 1r, C.L.XIII.22] e “Leggere per immagini, il libro illustrato a Napoli nell'età del viceregno spagnolo (1503-1707)”.
  2. Il catalogo dei  manoscritti della Biblioteca Malatestiana di Cesena <http://www.malatestiana.it/
    manoscritti/index.htm
    >.
  3. Le “immagini” della Biblioteca Estense di Modena, <http://www.cedoc.mo.it/
    estense/mss/
    index.html
    >, che riguardano: codici manoscritti, carte e mappe, vedute della città di Modena, mostre (Astrologia, Cartografia, Dante, Estensi, Giardini, Leggenda Aurea) e stemmi. [Immagine c. 6r del De Spera, Lat. 209].
  4. il progetto Amanuense, <http://www.amanuense.it/>,  per la digitalizzazione dei fondi di alcune biblioteche nazionali: 
  5. I progetti legati alla Bibbia di Gutenberg (fra cui <http://prodigi.bl.uk/
    gutenbg/search.asp
    >)
  6. I manoscritti della Commedia di Dante [Immagine Codice Riccardiano 1035, c.4r”], messi in linea con la consulenza scientifica della Società Dantesca Italiana, all’indirizzo <http://www.danteonline.it/
    italiano/codici_indice.htm
    >.  Le immagini digitali sono corredate da schede catalografiche di altissimo livello.
  7. Il progetto CEEC (Codices Electronici Ecclesiae Coloniensis) di digitalizzazione dei codici del Vescovo di Colonia [Immagine pagina di apertura del sito]. E’ il più interessante progetto di implementazione di una banca dati dinamica che associa dettagliate descrizioni ad immagini digitali ad altissima risoluzione. Cfr. <http://www.ceec.uni-koeln.de>
  8. Il Digital Scriptorium dell’Università di Berkeley <http://sunsite.berkeley.edu/
    Scriptorium
    >, una ricchissima banca dati iconografica di manoscritti medievali e rinascimentali di varie biblioteche statunitensi.
  9. Progetto IMAGO, <http://www.ibc.regione.
    emilia-romagna.it/
    soprintendenza/imago.htm
    >, catalogo collettivo di opere grafiche (stampe, disegni, fotografie, manifesti, figurine, etc.) appartenenti ad alcune istituzioni emiliano-romagnole. E’ data la possibilità di effettuare ricerche sul corpus: 

L’interrogazione sortisce la descrizione catalografica associata all’immagine digitale.

[La maschera di interrogazione]

 


[1] Un manoscritto o una cinquencentina possono essere “catturati” solo come immagini, in quanto le attuali tecnologie non consentono un riconoscimento ottico di caratteri differenti da quelli moderni a stampa.

[2] In realtà in un elaboratore non esiste una sola memoria (cfr. anche sezione 1 del presente manuale).

[3] Cfr. sezione 1 del presente manuale.

[4] Cfr. sezione 1 sull’hardware, parte relativa alle periferiche di I/O.

[5] I sistemi di cattura delle immagini sono vari e differenti. Lo strumento più noto è lo scanner a letto piano. Molto utilizzati sono poi lo scanner per microfilm e quello per diapositive che consentono, allo stesso modo, di riprodurre l'oggetto d'origine (un microfilm o una diapositiva) in immagine digitale, leggibile dall'elaboratore; richiedendo quindi un duplice passaggio, dall'oggetto al microfilm (o alla diapositiva), dal microfilm (o dalla diapositiva) allo scanner, è indispensabile che il microfilm o la diapositiva siano di buona qualità per consentire, all'atto della scansione, di ottenere una buona risoluzione. Poi esistono le macchine fotografiche digitali e le videocamere digitali. Infine il photo CD, un procedimento inventato dalla Kodak, che consente di acquisire in maniera digitale le foto ottenute tramite una macchina fotografica tradizionale: con l'utilizzo di un peculiare tipo di scanner le fotografie vengono raccolte in un CD, agevolmente consultabile tramite il proprio lettore. Cfr. anche, per la parte sull’hardware, la sezione 1 del presente manuale relativa agli scanner.

[6] Questo significa che ogni colore avrà, ciascuno, 256 possibili sfumature cioè 256 differenti tonalità di rosso, 256 tonalità di verde e 256 tonalità di blu. Questi colori, combinati assieme, creano 16.700 possibili valori (2563).

[7] Abbiamo quindi 4 tipi principali di immagine:

1 bit - bianco e nero
8 bit – scala di grigi
8 bit – colore
24 bit - colore

[8] “100 dpi” significa quindi che una linea che nell’oggetto originale ha la dimensione, in senso orizzontale o verticale, di un pollice, sarà rappresentata sull’elaboratore con 100 pixel. Quindi un pollice al quadrato dell’oggetto sarà rappresentato con 100 pixel in orizzontale e 100 pixel in verticale, creando quindi, nell’immagine digitale, un quadrato contenente 10.000 pixel. 

[9] La RISOLUZIONE di un’immagine è quindi determinata dal numero di dpi. La scelta della risoluzione con la quale effettuare la scansione dipenderà dalla destinazione finale del file (web, quindi distribuita in rete o off-line, quindi destinata all’archiviazione).

[10] Ogni volta che la risoluzione duplica, la dimensione del file che deve contenere l’immagine, quadruplica: un’immagine con risoluzione a 100x100 dpi (100 orizzontalmente e 100 verticalmente) ha 10.000 punti per pollice, un’immagine a 200x200 dpi ha 40.000 punti per pollice, un’immagine a 400x400 dpi ha 16.000 punti per pollice. Per calcolare lo spazio occupato in memoria dalle immagini digitali, si moltiplica il formato dell’immagine (base x altezza) per il dpi per la profondità del pixel il tutto diviso per 8 (un byte). Diremo comunque che la risoluzione comporta una variazione delle dimensioni del file finale che è direttamente proporzionale al tipo di immagine sulla quale lavoriamo. Clicca qui per vedere alcuni esempi

.

[11] Ovviamente i formati gestibili dipendono dal tipo di programma utilizzato per il salvataggio del file. Uno dei migliori a tutt’oggi sul mercato è Photoshop della Adobe, che gestisce quasi tutti i formati di file.

[12] Esistono anche delle tecniche specifiche di gestione delle immagini digitali che si fondano non sull’alterazione del numero e della profondità dei pixel ma su sistemi di cattura delle immagini tramite opportune tecniche digitali. Questa non è la sede adatta per trattarne, ma il sistema di restauro virtuale può ad esempio fornire risultati sorprendenti; le riprese analogiche alla fluorescenza (in bianco e nero e a colori), all’infrarosso, e all’ultravioletto permettono infatti di recuperare dati compromessi e ampliare l’acquisizione delle informazioni sulla fonte (riscritture, cancellazioni, abrasioni, cambi di mano, inchiostri, ecc.). Cfr. il sito dedicato a Rinascimento Virtuale <http://www.
saunalahti.fi/
~ikotivuo/
rvrvrv
> e  <http://www.opib.
librari.
beniculturali.it/
rinascimento.html
>

[13] Per i materiali a stampa: a) livello minimo: binario, due colori (bianco e nero) e 75 dpi;
b) livello medio: binario, due colori (bianco e nero) e 300 dpi;
c) livello alto: binario, due colori (bianco e nero) e 600 dpi. Per i materiali in scala di grigio: a) livello minimo: scala di grigio, 4 bit, cioè 16 livelli di grigio, e 75 dpi; b) livello medio: scala di grigio, 8 bit, cioè 256 livelli di grigio, e 150 dpi; c) livello alto: scala di grigio, 8 bit, cioè 256 livelli di grigio, e 300 dpi. Per i materiali a colori e i manoscritti: a) livello minimo: in scala di grigio, 4 bit, cioè 16 livelli di grigio, e 75 dpi; b) livello medio: a colori, da 8 a 24 bit, cioè da 256 a 16.700 milioni livelli di colore, e 150 dpi; c) livello alto: a colore 24 bit, cioè 16.700 milioni livelli di colore, e 300 dpi.