Parte 9. Lanalisi testuale
9.1 Premessa
Una volta resa operativa la prima fase di memorizzazione e codifica dei dati, è necessario indagare quali altre applicazioni è consentito realizzare con lausilio di uno strumento elettronico, cioè verificare in concreto cosa sia possibile fare con laiuto dellinformatica nel campo delle discipline umanistiche. Il processo di memorizzazione dei dati che si intendono elaborare è la più ovvia delle applicazioni dellinformatica nel settore umanistico, operazione preliminare a qualsiasi forma di trattamento automatico. Ovviamente loperazione di memorizzazione, in quanto traduzione da un linguaggio ad un altro ed in quanto trasferimento da un supporto ad un altro, deve essere accompagnata, come già largamente dimostrato, da una scrupolosa operazione di codifica che garantisca la conservazione dellinformazione e lassoluta trasportabilità dei dati.
Passo successivo alla memorizzazione e alla conseguente codifica del testo è lorganizzazione del materiale che si intende analizzare. Tra le molteplici possibili forme di strutturazione dei dati, sicuramente quella che consente di accostarsi agli obiettivi dellanalisi testuale in modo appropriato è lorganizzazione nella forma della base di dati, o database: tutte le informazioni necessarie allo svolgimento dellattività preposta possono essere efficacemente memorizzate, oltre che rapidamente ritrovate ed elaborate, in un archivio elettronico: i DBMS (Data Base Management Systems), possono essere utilizzati dallumanista con grande giovamento, in quanto agevolano ogni tipo di analisi computazionale oltre che di indagine filologicamente orientata.
Organizzare il materiale testuale nella forma della base di dati significa consentire operazioni di information retrieval, cioè di recupero dellinformazione ricercata, che superano il livello del mero riconoscimento dei dati informazionali per stringhe di caratteri, cioè il pattern recognition, consentendo inoltre indagini testuali di varia natura.
È necessario rilevare che lapproccio computazionale ad un insieme di dati si può sviluppare in modo triplice.
Ad un primo livello, una volta memorizzato il testo in un file ASCII è possibile muoversi nella direzione di una mera ricerca per stringhe di caratteri. Il programma impiegato allo scopo si limiterà ad individuare quella determinata sequenza di segni grafici di cui lutente chiederà notizia.
Il passo successivo è quello della codifica, cioè dellinserimento dei descrittori o marcatori (già chiamati in precedenza tags) che il codificatore individuerà come indispensabili per marcare quei tipi di dati informazionali utili allindagine computazionale, che concordino cioè con gli obiettivi dellanalisi e le necessità ricerca [1] . Il testo codificato consente di essere indagato in modo più approfondito: è possibile ricercare non solo sequenze di significanti grafici ma anche di effettuare indagini di carattere semantico. Un file ASCII non codificato non consente operazioni di questo tipo limitando la ricerca alla successione dei segni grafici.
Ma è possibile raggiungere un livello ancora superiore strutturando
i dati nella forma della base di dati. Un testo codificato non è infatti
ancora un database, è solo una rappresentazione della struttura dei dati
e non consente quindi di effettuare operazioni logiche sul modello computazionale
assegnato al materiale memorizzato
Il grande vantaggio dellorganizzazione dei dati nella forma del
database è quello di consentire operazioni molto più evolute agevolando
lindagine testuale, grazie alla possibilità di gestire strutture
relazionali.
Pare doveroso ribadire che il passaggio dal supporto cartaceo a quello elettronico, richiede che la trascrizione del testo avvenga in formato ASCII, e che esso venga poi adeguatamente codificato tramite ricorso a descrittori in grado di definire la struttura logica del testo ed, eventualmente, la parvenza grafica dello stesso (diversità di corpi tipografici, uso del grassetto o del corsivo, ecc.).
È necessario che la codifica sia espressa in questi termini [2] non solo per garantire lassoluta trasportabilità dei dati, ma anche perché una delle limitazioni di molti programmi per lanalisi dei testi è lincapacità a riconoscere e distinguere un carattere in grassetto da uno in corsivo. Per questo lanalisi del testo si fa operando su file di testo, o file ASCII, che si limitano a riportare i caratteri costituenti ed indicanti il contenuto del testo.
9.2 I sistemi di analisi testuale
È evidente che molteplici sono le applicazioni realizzabili su di un testo in formato elettronico, ma si è deciso di trattarne solo alcune, quelle che più significativamente concernono il settore relativo lambito di indagine della critica e dellanalisi del testo letterario.
Per realizzare indici, individuare concordanze e produrre liste di frequenze è necessario limpiego di un software che consenta il reperimento dei vocaboli [3] . Esistono molteplici programmi in grado di effettuare operazioni di text retrieval, cioè di reperimento e recupero di dati (nella forma di stringhe o sequenze di caratteri), allinterno di un testo o di un corpus testuale, consentendo la successiva produzione di indici e concordanze [4] .
Questi programmi sono in grado di reperire i passi che, allinterno di un testo, contengono un nome, un suffisso o una sequenza di caratteri, a seconda delle esigenze dello studioso e delle necessità sollevate dalla ricerca. Inoltre sono in grado di estrarre tutti i gruppi di caratteri che stanno tra due blank (carattere nullo, spazio bianco), trascurando solo i segni speciali (interpunzione, parentesi, ecc.), che saranno intesi come divisori di stringhe allo stesso livello dei blank [5] .
Lutente potrà comunque istruire il programma a non considerare come divisori alcuni dei caratteri speciali, o a cercare solo determinate parole (key words) o, viceversa, a trascurarne alcune (empty words), ecc [6] .
È chiaro che operazione preliminare a qualsiasi trattamento di analisi testuale è lindividuazione e la scelta oculata del testo base, cioè del testo prescelto come fondamento per la codifica. Sarà infatti in riferimento a quello specifico testo che effettueremo le nostre indagini. Questa scelta si rivela indispensabile nel caso di un testo che riporta, nella sua tradizione, differenti edizioni, e per questo è necessario indicare esplicitamente a quale di esse si fa riferimento. Soprattutto occorreranno, una volta caricato il testo in formato elettronico, riferimenti espliciti (per esempio numero di pagina o riga) al testo impiegato come modello, cioè come referente, per poterli rintracciare in caso di necessità. Si realizzerà dunque una sorta di testo ideale, staccato dalla sua materializzazione, cioè dal mezzo materiale in cui lo leggiamo.
Ovviamente questo testo ideale avrà delle suddivisioni (capitoli, paragrafi, righe) che non necessariamente corrisponderanno a quelle del supporto materiale. Bisognerà allora esplicitare, allatto dellanalisi, a quale testo si fa riferimento, se a quello originale o alla sua versione elettronica.
Chiaramente si tratta di informazioni che andranno dichiarate allatto della codifica.
a) ConcordanzeScendendo nello specifico, diremo che un programma di concordanze è un programma che consente di enucleare tutte le parole (intese come stringhe di caratteri poste tra due blank) presenti in un testo, presentandole in ordine alfabetico [7] , accompagnate da un contesto che consenta di coglierne il senso e da un serie di indicazioni che permettano il reperimento e la localizzazione del passo allinterno della struttura del testo [8] . Non sempre nel preparare le concordanze di unopera vanno elaborate tutte le parti di essa [9] ; generalmente si tende ad espungere articoli, congiunzioni, preposizioni, le cosiddette parole vuote, che, il più delle volte, non forniscono un ausilio alla ricerca. Vi sono comunque casi in cui, quando ad esempio si studiano i legamenti sintattici propri di un autore, proprio le parole vuote rappresentano loggetto della ricerca (lo stesso valga nella produzione di indici o nel computo delle frequenze) e vengono dunque ad assumere un rilevanza innegabile.
I moderni programmi dedicati alla realizzazione delle concordanze offrono la possibilità di scegliere tra due differenti forme di output del risultato ottenuto, cioè due differenti forme di presentazione tipografica: concordanze di tipo Kwic e concordanze di tipo Kwoc [10] . Nella forma Kwic (Key Word In Context) le forme vengono allineate tutte a partire da una stessa colonna di stampa. Le forme possono cioè essere sia centrate, sia allineate al margine destro o sinistro. Lallineamento delle forme aumenta certamente la leggibilità della concordanza, ma si rivela utile solo nel caso in cui il contesto scelto è relativamente breve, al massimo una riga. Se la presentazione del contesto riproduce quella normale del testo, allora la forma viene evidenziata tramite stratagemmi tipografici (per esempio con lausilio del grassetto) [11] . [Esempio di concordanza KWIC]
Nella forma Kwoc (Key Word Out Context) le forme normalmente non vengono allineate; la key word viene cioè collocata esternamente, come esponente, e poi riportata allinterno del contesto. La concordanza Kwoc è sostanzialmente un indice a cui viene associata una riga di contesto.
b) IndiciUn indice, al contrario, può essere considerato come un caso particolare di concordanza priva di contesto. Lindice, delle parole, dei luoghi, ecc., (index verborum e index locorum) è una lista dei vocaboli contenuti allinterno di un testo, o di un corpus, dove ogni parola è accompagnata dal riferimento al luogo, o ai luoghi, in cui è possibile rintracciarne loccorrenza individuale.
Talvolta lindice riporta alcune statistiche relative alla frequenza relativa o assoluta dei vocaboli allinterno del testo. Entriamo così nel campo delle frequenze.
c) FrequenzeDiremo che la lista di frequenze di un testo mostra le parole che lo compongono accompagnata dal numero di volte in cui ricorrono, ed eventualmente dalla percentuale rispetto al numero totale di parole. La posizione che ogni vocabolo occupa allinterno di questa lista viene detto rango [12] . È certamente significativo stabilire una soglia al di sotto o al di sopra della quale le parole vengono considerate rare o frequenti, al fine di operare unindagine maggiormente significativa delle occorrenze individuali dei vocaboli, e giungere ad attribuire alla rarità o alla frequenza un determinato significato [13] . La lista di frequenze si distingue dallindice in quanto, come è ovvio, mancano le indicazioni circa la collocazione della parola allinterno del testo, anche se tale operazione rientra, come le altre, nellambito del cosiddetto pattern recognition, cioè del riconoscimento di sequenze o stringhe di caratteri. [Esempio di frequenza]
d) Il dizionario macchina
Tramite lindividuazione di indici e concordanze, linformatica può senzaltro apportare un consistente aiuto allambito della lessicografia [14] , concorrendo nel migliorare la qualità dei dizionari tradizionali, ma soprattutto tentando di indicare la strada per produrre un nuovo tipo di dizionario informatico. Il cosiddetto dizionario macchina consiste di un file nel quale sono indicati tutti i lessemi [15] , tratti da tutti i testi disponibili in MRF di cui sia stata operata lindicizzazione, dove ad ogni vocabolo sono associate tutte le informazioni tipiche di un dizionario. I procedimenti automatici sono in grado, mediante il confronto tra testo elettronico e dizionario macchina, di fornire allutente, per ogni parola, il corredo di informazioni relative alla stessa [16] . Ovviamente la diffusione di tali dizionari è strettamente correlata alla disponibilità di testi in MRF o, meglio ancora, di basi di dati testuali.
Per concludere diremo che linformatica, in questo specifico caso dellanalisi del testo e in tutti i casi in cui vengono messe in gioco esclusivamente le sue più ovvie e note abilità, non produce in realtà risultati differenti da quelli ottenibili con risultati tradizionali, ma permette di ottenere con maggiore rapidità, e su una massa di dati più ampia, risultati più attendibili.
9.3 La lemmatizzazione [17]
Il campo della lemmatizzazione è proprio di una delle principali applicazioni di procedimenti automatizzati alle discipline umanistiche, e per questo richiede una trattazione individuale.
Lemmatizzare un testo significa individuare un unico lemma, cioè ununica forma grammaticale, per i vocaboli che, nelle lingue naturali, sono caratterizzati dallessere forme flesse: e quindi i tempi dei verbi semplici e composti, i sostantivi, gli aggettivi, gli articoli, i pronomi, cioè tutte le parti del discorso declinabili al maschile o al femminile, al singolare o al plurale.
La lemmatizzazione si pone come obiettivo di ricondurre ad unità queste forme raccogliendole sotto un unica forma base, quella che appare cioè come riferimento nei vocabolari.
Una volta che il testo sia stato posto in machine readable form, che ne sia stata opportunamente individuata e descritta la struttura, che sia stato cioè adeguatamente codificato, occorre decidere se sia meglio lemmatizzarlo oppure no. Effettuato quindi il primo spoglio linguistico ci si troverà di fronte ad un risultato che, a seconda dei punti di vista, potrà essere ritenuto definitivo, oppure un semplice punto di passaggio per ulteriori elaborazioni.
È infatti possibile decidere per un output del testo da presentarsi in modo non lemmatizzato e accontentarsi del risultato raggiunto, oppure ritenere insufficiente il livello di elaborazione a cui si è pervenuti e decidere per il modo lemmatizzato.
I programmi, attualmente in commercio, che consentono di effettuare operazioni di analisi testuale e, in particolare di produrre indici e concordanze, consentono anche di individuare, allinterno del testo, vocaboli di cui si necessiti di rintracciare solo la radice; lutente potrà far seguire la stringa di caratteri da un apposito segno di codifica, che verrà compreso dal programma: per esempio si potrà istruire il software affinché ricerchi tutte le parole che cominciano con amic (amico, amica, amici..) o con cant (cantare, cantai, cantasti, cantavo, cantavamo, canterò, ecc.) riconducendo quindi ad un unico lemma tutte le forme grammaticali del vocabolo amico (e optando per questo vocabolo come soggetto in un indice o parola di riferimento nella lista delle concordanze) e riportando nellindice o nella concordanza il verbo cantare allinfinito, eliminando quindi tutte le coniugazioni e i tempi verbali [18] .
Esistono però anche programmi specifici per la lemmatizzazione, o più in generale per lanalisi morfologica dei testi [19] .
Il vantaggio del modo lemmatizzato, rispetto a quello non lemmatizzato, è duplice: innanzitutto è assodato che la massa delle forme (cioè la molteplicità delle forme afferenti la stessa parola) è essenzialmente rumore, e dunque qualsiasi mezzo che aiuti a ridurlo o ad eliminarlo pone in maggiore evidenza linformazione che il rumore disturbava; in secondo luogo la variabilità formale è effetto della struttura, grammaticale o sintattica, della lingua in uso ed eliminarla significa porre in evidenza pure parole, significa attribuire ai concetti valore preminente sulla grammatica e sulla sintassi [20] .
Può dunque rivelarsi significativo optare per il modo lemmatizzato soprattutto nel caso in cui interessi studiare idee e concetti propri dellopera o dellautore piuttosto delle scelte grammaticali o sintattiche.
È chiaro che esistono casi in cui può essere utile mantenere la forma grammaticale o sintattica di ciascun vocabolo, e in queste circostanze si ricorrerà al modo non lemmatizzato, il cui vantaggio risiede esattamente nella perfetta aderenza dello spoglio alle parole del testo, pure con lo svantaggio sostanziale della difficoltà di consultazione.
Uno degli svantaggi effettivi invece del modo lemmatizzato consiste nellinevitabile distanza che si crea tra il lemma e la parola che lautore aveva voluto inserire nel proprio testo, con il rischio di una perdita dellinformazione, per contro però ad unestrema facilità di consultazione [21] .
Posto che si decida per il modo lemmatizzato occorre domandarsi se sia possibile effettuarla in modo automatico o semiautomatico, in quanto è ovvio che su di un eventuale corpus di alcune decine di migliaia di forme si introdurrebbero moltissimi errori dovendo operare manualmente, battendo sulla tastiera tutti i lessemi. Esistono certamente strumenti informatici, come i dizionari macchina automatici, che possono agevolare loperazione di lemmatizzazione, ma sarà sempre luomo a dover intervenire direttamente.
Questo è indispensabile perché la lemmatizzazione non può prescindere dalla comprensione del testo; innanzitutto nel caso degli omografi, parole graficamente scritte nello stesso modo ma dotate di significato differente, che devono essere ovviamente distinte. È sicuramente effettuabile una lemmatizzazione automatica, ma è preferibile optare per una semiautomatica, una lemmatizzazione assistita dal computer.
Si potrebbe allora operare nel modo seguente:
si avvia il programma di lemmatizzazione; si indica al lemmatizzatore quale è il testo da analizzare; a partire dalla prima forma del testo fino allultima il programma analizza la forma e in base al suo dizionario propone la o le analisi formalmente valide, possibili per quella forma; se nessuna analisi, e quindi nessun lemma è valido tra quelli proposti, viene aggiunto nel dizionario del lemmatizzatore un nuovo lemma con la sua descrizione morfologica; lo studioso sceglie lanalisi semanticamente corretta tra quelle che il computer ha proposto; il computer accoda il lemma in un file che contiene il testo lemmatizzato e accoda lanalisi della forma in un file che contiene le analisi delle forme [22] .
9.4 Lanalisi dello stile
Sui risultati di indici e concordanze affonda le proprie radici lanalisi statistica della lingua; ad un primo livello è possibile compiere unindagine circa la frequenza di apparizione di alcune parole, o la lunghezza delle stesse, in una determinata opera o in un corpus testuale, alla ricerca di costanti significative [23] .
Si entra così nel campo delle analisi stilometriche, indagini che consistono nellapplicazione di tecniche statistiche allo studio delle caratteristiche dello stile di un testo. Si tratta di misurare la lunghezza di parole (in lettere), o la lunghezza di frasi (in parole), o la frequenza duso di determinati tipi di parole, e da questi conti trarre delle statistiche. Statistiche che, come vedremo, se interpretate correttamente ed adeguatamente, possono aiutare nel chiarire problematiche di carattere letterario [24] . Questo significa che non è possibile limitarsi ad identificare tratti della scrittura che siano misurabili, esprimendoli in forma numerica, ma tentare di rendere significativi i numeri che il programma restituisce [25] .
Al fondo di ogni metodo informatico per lanalisi dei testi sta la:
convinzione che esista qualcosa - lo stile - che è non solo riconoscibile, e unico nelle sue specifiche manifestazioni (lo stylistic fingerprint [26] ) ma anche formalmente definibile/descrivibile, e può perciò...divenire oggetto di ricerca condotta utilizzando il computer [27] .
Lo stile è quindi ciò che caratterizza lopera, o le opere, di un autore, oppure un testo specifico, e li distingue chiaramente rispetto ad altri simili per genere, epoca o argomento.
È considerato, in particolare, stylistic fingerprint, cioè caratteristiche tipiche e distintive di unopera, una serie di usi stilistici: la lunghezza media delle frasi; la lunghezza media delle forme; la frequenza delle forme selezionate; la presenza di varianti grafiche; la presenza, la percentuale e la posizione delle parole vuote [28] . Anche le concordanze rimandano ai metodi stilometrici più diffusi, e dunque si rivelano assolutamente utili nellindividuazione degli usi stilistici [29] .
Queste operazioni possono essere realizzate per indagare, ad esempio, i vocaboli che, allinterno di una tradizione testuale afferente un medesimo autore, ricorrono più di sovente, e giungere quindi a caratterizzare lo stile proprio di un determinato scrittore. Ma non solo: lanalisi stilistica può condurre a formulare risultati che si possono rivelare ancora più utili.
Generalmente le analisi stilometriche vengono infatti impiegate al fine di individuare lautore, o gli autori, di unopera, assegnare cioè la paternità ad una pubblicazione circa la quale si dubita dellautore, o addirittura non lo si conosce.
Quando si diffida circa lintegrità di unopera, si ritiene cioè che una o più parti non siano dellautore a cui lintera opera è correntemente attribuita, si può voler individuare quali non sono le parti dellautore dichiarato. Lopera viene così divisa in parti e si verifica se le caratteristiche delle varie parti sono omogenee, se le loro eventuali differenze rientrano in un margine di casualità, o se effettivamente si tratta di caratteristiche stilistiche differenti.
Ovviamente si saranno esaminate le opere sicuramente ascrivibili a ciascuno degli autori, individuando le caratteristiche distintive e discriminanti dello stile di entrambe. Allora si potrà verificare quali parti riportano le caratteristiche individuate come proprie di un autore, quali i segni distintivi riconosciuti contraddistinguenti laltro scrittore.
Può anche capitare di dover indagare unopera apocrifa o anonima, al fine di individuarne lautore. Si rintracciano quindi le caratteristiche distintive dellopera e si individuano le peculiarità stilistiche dellautore, o degli autori, cui si assegnerebbe la paternità dellopera, per verificare eventuali somiglianze. Dopo aver dunque rilevato le caratteristiche proprie di ogni autore, si può giungere a formulare a quale di essi corrispondono le peculiarità stilistiche rintracciate nel testo [30] .
9.5 La scelta del programma per l'analisi del testo
La scelta del programma è un momento molto delicato in quanto qualunque operazione potrebbe venir vanificata da un programma scarsamente flessibile che consenta solo un ristretto numero di operazioni o di output.
È quindi necessario prima di acquistare un programma analizzare le proprie esigenze e scegliere il software che meglio si adatti a esse.
Oltre tutto è certo che l'esecuzione di indici e di concordanze è destinata a modificarsi rapidamente [31] . La diffusione a costi relativamente modesti di elaboratori di notevoli capacità rende possibile a molti l'esecuzione in proprio di elaborazioni mirate ai propri scopi. È quindi ormai certo che la memorizzazione e la codifica di testi siano il vero importante lavoro da compiere.
Si intendono qui elencare una serie di prodotti (di cui è facilmente reperibile informazione sul web) che permettono di effettuare operazioni di analisi testuale.
TACT (http://www.chass.utoronto.ca/
cch/tact.html)
TACT (Text Analysis Computing Tools), è un sistema di analisi testuale, basato su un pacchetto di 15 programmi, (via MS-DOS), creato per eseguire operazioni di text-retrieval e analisi di testi letterari. Viene principalmente usato per ricerche di singole parole ma anche per interrogazioni complesse in quanto consente la gestione di operatori e raggruppamenti dei termini della ricerca. L'output può avere la forma di una concordanza, di una lista, o di una tabella. Lutilizzo di questo prodotto è piuttosto ostico, non solo per la complessità delle operazioni da svolgere, ma anche perché i singoli programmi, girano solo in ambiente MS-DOS. Esiste anche un modulo (TACTWeb) che consente di interrogare gli indici full-text in ambiente Web. All'indirizzo http://history.furman.edu/tactweb/doc/home.htm è possibile consultare tutte le informazioni necessarie al funzionamento dell'applicativo e scaricare via ftp il pacchetto completo.
Concordance (http://www.rjcw.
freeserve.co.uk/)
Gira in ambiente Windows e genera da uno o più testi ASCII un file con concordanze automaticamente convertibile in una pagina .html navigabile pronta per essere distribuita sul Web. Allinterno delle concordanze è possibile effettuare ricerche di singole parole e ottenere liste di frequenze. Le occorrenze indicano come riferimento per la citazione il numero di linea del file di input utilizzato e non l'indicazione della suddivisione testuale alla quale quel contesto appartiene. È possibile utilizzare Concordance con i file XML, grazie al comando ignore che esclude i caratteri compresi tra due marcatori, ma non è possibile operare ricerche che tengano conto dei tag come in Wordsmith e Monoconc. La versione scaricabile è una shareware che può essere utilizzata gratuitamente per 30 giorni.
ConcApp (http://www.edict.com.hk/
PUB/concapp/)
L'applicativo ConcApp permette di effettuare veloci ed utili operazioni di analisi testuale su un testo scelto dall'utente. Si può ottenere l'elenco delle occorrenze di una parola e risalire al contesto, si possono effettuare analisi statistiche sulla frequenza di una parola o di una stringa (lista visualizzabile per frequenza o in ordine alfabetico) o anche la percentuale di parole usate una sola volta nel testo.
Wordsmith (http://www.lexically.net/
wordsmith/index.html)
Pacchetto di strumenti di analisi linguistica particolarmente versatile e complesso: Wordlist per estrapolare la lista delle parole presenti nel testo e ottenere un output in ordine alfabetico o di frequenza; Concord per ottenere le concordanze di un testo; Keyword per trovare lelenco delle parole chiave presenti. Alcune interessanti funzioni dello strumento: è possibile dividere il testo analizzato in sezioni, elaborare e ottenere in output statistiche complesse, cercare occorrenze testuali ricorrendo ad uninterrogazione tramite operatori avanzati, collazionare due diversi testi alla ricerca dei luoghi varianti. Particolarmente interessante è la possibilità di lavorare con testi codificati in XML. I tag possono essere ignorati, ma anche utilizzati per ricavare statistiche dettagliate, cioè verificare le occorrenze testuali per partizioni strutturali o, in generale, per vocaboli codificati. Estremamente interessante la possibilità di effettuare una lemmatizzazione automatica. Quest'ultima operazione richiede, in ogni caso, la stesura di un elenco delle desinenze della lingua italiana, in quanto il programma è impostato per la lingua inglese. Completano il prodotto un viewer, utilizzabile anche come browser SGML, e un manuale duso estremamente dettagliato.
Monoconc Pro (http://www.athel.com/mono.html)
Prodotto in grado di gestire corpora complessi, composti da milioni di parole. Simile al suo concorrente Wordsmith, è particolarmente versatile nella visualizzazione delle occorrenze: utilizza il formato KWIC oltre a quello per frase, visualizza un contesto molto ampio, segnala tag particolari allinterno del contesto.
Conc (http://www.sil.org/computing/conc/)
Conc (unico prodotto per piattaforma Macintosh) lavora sulla realizzazione di concordanze e sulla produzione di indici (con frequenze di occorrenza di ogni vocabolo del testo). Conc visualizza il testo originale, le concordanze e lindice in tre diverse finestre. Ciccando su una parola di una delle tre finestre è possibile visualizzare lo stesso vocabolo nelle altre due.
[1] Relativamente ai linguaggi di codifica dei testi, cfr. cap. 6.
[2] Con questo si vuole dire che i moderni word processor (come per esempio Word per Windows) consentono di rappresentare laspetto grafico, tipografico e topografico dei caratteri allinterno del testo, modificando direttamente quelle sezioni cui si intende assegnare laspetto desiderato (un vocabolo in grassetto, o in corsivo, o con un font diverso, oppure di dimensioni particolari), ma con linevitabile impossibilità che questo file possa essere letto da un altro programma (un file scritto tramite Word, non sarà leggibile da nessun altro software).
[3] Relativamente ai software per la gestione dei sistemi di analisi del testo si rimanda allultimo paragrafo del presente capitolo.
[4] Per la trattazione della vasta mole di prodotti software attualmente disponibili, rimando a M. Lana, Luso del computer nellanalisi dei testi, Franco Angeli, Milano 1994, pp. 27-28; p. 147; p. 149, p. 185.
[5] T. Orlandi, Informatica Umanistica, La Nuova Italia Scientifica, Roma 1990, p. 90.
[6] Ibid., p. 90.
[7] Lordinamento di default, cioè quello predefinito dal programma, è quello alfabetico. Sta allutente optare eventualmente per un ordine differente, secondo un criterio adeguato.
[8] Per ciò che inerisce il contesto, è consigliabile impiegare come base di riferimento le singole unità sintattiche (frasi o parti di frase) precedenti e successive alloccorrenza in questione. Per quanto riguarda i riferimenti utili alla localizzazione, è chiaro che dipendono dal tipo di testo: in un testo in prosa narrativa sarà naturale scegliere la pagina e la riga delledizione scelta come base della codifica, eventualmente con laggiunta della menzione del capitolo. Per una raccolta di brevi testi poetici, si farà riferimento al titolo (o numero) del singolo testo, e al verso. Per un testo drammatico, si farà riferimento, per esempio, allatto, scena e personaggio del dialogo....tutto questo va previsto al momento di codificare il testo... T. Orlandi, Informatica Umanistica, cit., pp. 122-123
[9] Nel fare le concordanze di un determinato testo non bisogna sottovalutare il fatto che ci troviamo in realtà di fronte a due testi (come minimo). Il primo è quello a cui ci si riferisce (la Divina Commedia, I Malavoglia, ecc.) e l'altro è il supporto materiale, la particolare edizione, che stiamo utilizzando. A questo punto dobbiamo scegliere: vogliamo riferirci all'uno o all'altro testo, oppure vogliamo che alla fine del nostro lavoro rimanga traccia di entrambi? La scelta del modello di riferimento ha, quindi, un'influenza molto forte sulla scelta delle unità di riferimento. Molto importante nel prendere questa decisione è l'analisi della tipologia del testo da codificare alla ricerca di quali possano essere gli elementi realmente utili come punto di riferimento. Per un'opera di narrativa si può pensare che riga, pagina e (quando possibile) capitolo possano fornire sufficienti coordinate allo studioso. Questo non vuol dire che per usi particolari non si possano scegliere altri punti di vista: il personaggio che parla o riflette, la voce narrante, la descrizione, la lingua o il dialetto e così via. Per la poesia il titolo o il numero (quando ci sono) e il verso sembrano essere gli elementi minimi a cui eventualmente si può aggiungere la pagina di una determinata edizione. Per il teatro si possono utilizzare atto, scena e personaggio. Quindi per ogni diverso tipo di testo (e a seconda dell'obiettivo della ricerca) bisognerà individuare le unità di riferimento più opportune.
[10] G. Gigliozzi, Il testo e il computer, cit., p. 183.
[11] T. Orlandi, Informatica Umanistica, cit., p. 123.
[12] Le liste di frequenze potranno riportare le parole o rispettando lordinamento alfabetico, quindi quello proprio dellindice, segnalando per ogni occorrenza il numero di volte in cui compare, oppure seguendo lordine di frequenza di ogni parola, ordinando quindi i vocaboli a partire da quello con il maggiore, o minore, numero di riscontri allinterno del testo base.
[13] Ribadiamo che sarà, ad esempio, certamente utile espungere articoli e preposizioni dal gruppo di parole di cui si indaga la frequenza, a meno che lobiettivo dellindagine testuale contempli scopi differenti da quelli più largamente condivisi. Cfr. G. Gigliozzi, Il testo e il computer, cit., p. 184. Effettivamente sono stati condotti studi molto importanti esaminando parti del testo semanticamente non rilevanti: le cosiddette parole vuote, anche dette parole grammaticali, come congiunzioni, particelle, preposizioni. Chiaramente obiettivo di tali indagini statistiche è di verificare quale sia la tendenza di un autore nellimpiego di tali vocaboli, ritenendo che la scelta di tali parole definisca limpronta inconfondibile di ogni scrittore. Cfr. M. Lana, Luso del computer nellanalisi dei testi, cit., pp. 49-50.
[14] Con il termine lessicografia si intende lo studio descrittivo delluso di elementi lessicali nel discorso. Cfr. T. Orlandi, Informatica umanistica, cit., p. 125.
[15] Il vocabolario viene realizzato sempre in modo lemmatizzato (cfr. 9.3); per ogni singolo vocabolo si riporta cioè quella che è la sua forma grammaticale di base, individuandone quindi un solo lemma. Lo scopo della lemmatizzazione è infatti di avere, nel prodotto finale, le diverse forme grammaticali di una parola riunite sotto una sola forma fondamentale, esattamente quella che si trova nel vocabolario, Cfr. Ibid., p. 90.
[16] Sono già in commercio dizionari in formato elettronico (disponibili su CD), differenti dai dizionari macchina, che si propongono di aiutare lutente allatto della scrittura. Tali dizionari, caricati in memoria, possono aiutare chi scrive a controllare la grafia e il significato della parola, oltre ad essere normalmente utilizzati, nei moderni sistemi di videoscrittura, come correttori ortografici.
[17] Per la lemmatizzazione cfr. anche il contributo di M. Passarotti.
[18] T. Orlandi, Informatica Umanistica, cit., p. 90. Si avranno in questo modo di un testo le concordanze lemmatizzate: della parola di riferimento, cioè del lemma, verranno indicate le occorrenze totali (per esempio amico 17); di seguito verranno indicate le varie forme usate allinterno del testo (amico, amica, amici, amiche..) ognuna accompagnata dal contesto che ne consenta il reperimento.
[19] Per i software attualmente in uso nel campo della lemmatizzazione, rimando a M. Lana, Luso del computer nellanalisi dei testi, cit., p. 72.
[20] Ibid., pp. 72-73.
[21] G. Gigliozzi, Il testo e il computer, cit., pp.186-187.
[22] M. Lana, Luso del computer nellanalisi dei testi, cit., pp.73-74.
[23] G. Gigliozzi, Il testo e il computer, cit., p. 188.
[24] T. Orlandi, Informatica Umanistica, cit., p. 127.
[25] Cfr. G. Gigliozzi, Il testo e il computer, cit., p. 188-194.
[26] Letteralmente impronta digitale stilistica.
[27] M. Lana, Luso del computer nellanalisi dei testi, cit., p.107.
[28] Ibid., p. 108.
[29] È certamente utile lindividuazione, allinterno di un testo, delle concordanze di parole, di singole lettere, dellindice del lessico di un corpus, ecc. Cfr. Ibid., p. 108.
[30] Relativamente ai programmi utili per effettuare indagini stilometriche, rimando a Ibid., pp. 142-166.
[31] Non ha forse più utilità produrre tutte le concordanze stampate di un'opera ma strutturare la base di dati testuale in modo che sia oggetto di interventi computazionali ad hoc.