Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

Il Manuale

     

Segue
Parte 9. L’analisi testuale

 indietro

d) Il dizionario macchina

Tramite l’individuazione di indici e concordanze, l’informatica può senz’altro apportare un consistente aiuto all’ambito della lessicografia [14] , concorrendo nel migliorare la qualità dei dizionari tradizionali, ma soprattutto tentando di indicare la strada per produrre un nuovo tipo di dizionario informatico. Il cosiddetto dizionario macchina consiste di un file nel quale sono indicati tutti i lessemi [15] , tratti da tutti i testi disponibili in MRF di cui sia stata operata l’indicizzazione, dove ad ogni vocabolo sono associate tutte le informazioni tipiche di un dizionario. I procedimenti automatici sono in grado, mediante il confronto tra testo elettronico e dizionario macchina, di fornire all’utente, per ogni parola, il corredo di informazioni relative alla stessa [16] . Ovviamente la diffusione di tali dizionari è strettamente correlata alla disponibilità di testi in MRF o, meglio ancora, di basi di dati testuali.

Per concludere diremo che l’informatica, in questo specifico caso dell’analisi del testo e in tutti i casi in cui vengono messe in gioco esclusivamente le sue più ovvie e note abilità, non produce in realtà risultati differenti da quelli ottenibili con risultati tradizionali, ma permette di ottenere con maggiore rapidità, e su una massa di dati più ampia, risultati più attendibili.

9.3 La lemmatizzazione [17]

Il campo della lemmatizzazione è proprio di una delle principali applicazioni di procedimenti automatizzati alle discipline umanistiche, e per questo richiede una trattazione individuale.

Lemmatizzare un testo significa individuare un unico lemma, cioè un’unica forma grammaticale, per i vocaboli che, nelle lingue naturali, sono caratterizzati dall’essere forme “flesse”: e quindi i tempi dei verbi semplici e composti, i sostantivi, gli aggettivi, gli articoli, i pronomi, cioè tutte le parti del discorso declinabili al maschile o al femminile, al singolare o al plurale.

La lemmatizzazione si pone come obiettivo di ricondurre ad unità queste forme raccogliendole sotto un unica forma base, quella che appare cioè come riferimento nei vocabolari.

Una volta che il testo sia stato posto in machine readable form, che ne sia stata opportunamente individuata e descritta la struttura, che sia stato cioè adeguatamente codificato, occorre decidere se sia meglio lemmatizzarlo oppure no. Effettuato quindi il primo spoglio linguistico ci si troverà di fronte ad un risultato che, a seconda dei punti di vista, potrà essere ritenuto definitivo, oppure un semplice punto di passaggio per ulteriori elaborazioni.

È infatti possibile decidere per un output del testo da presentarsi in modo non lemmatizzato e accontentarsi del risultato raggiunto, oppure ritenere insufficiente il livello di elaborazione a cui si è pervenuti e decidere per il modo lemmatizzato.

I programmi, attualmente in commercio, che consentono di effettuare operazioni di analisi testuale e, in particolare di produrre indici e concordanze, consentono anche di individuare, all’interno del testo, vocaboli di cui si necessiti di rintracciare solo la radice; l’utente potrà far seguire la stringa di caratteri da un apposito segno di codifica, che verrà compreso dal programma: per esempio si potrà istruire il software affinché ricerchi tutte le parole che cominciano con amic (amico, amica, amici..) o con cant (cantare,  cantai, cantasti, cantavo, cantavamo, canterò, ecc.) riconducendo quindi ad un unico lemma tutte le forme grammaticali del vocabolo amico (e optando per questo vocabolo come soggetto in un indice o parola di riferimento nella lista delle concordanze) e riportando nell’indice o nella concordanza il verbo cantare all’infinito, eliminando quindi tutte le coniugazioni e i tempi verbali [18] .

Esistono però anche programmi specifici per la lemmatizzazione, o più in generale per l’analisi morfologica dei testi [19] .

Il vantaggio del modo lemmatizzato, rispetto a quello non lemmatizzato, è duplice: innanzitutto è assodato che la massa delle forme (cioè la molteplicità delle forme afferenti la stessa parola) è essenzialmente rumore, e dunque qualsiasi mezzo che aiuti a ridurlo o ad eliminarlo pone in maggiore evidenza l’informazione che il rumore disturbava; in secondo luogo la variabilità formale è effetto della struttura, grammaticale o sintattica, della lingua in uso ed eliminarla significa porre in evidenza pure parole, significa attribuire ai concetti valore preminente sulla grammatica e sulla sintassi [20] .

Può dunque rivelarsi significativo optare per il modo lemmatizzato soprattutto nel caso in cui interessi studiare idee e concetti propri dell’opera o dell’autore piuttosto delle scelte grammaticali o sintattiche.

È chiaro che esistono casi in cui può essere utile mantenere la forma grammaticale o sintattica di ciascun vocabolo, e in queste circostanze si ricorrerà al modo non lemmatizzato, il cui vantaggio risiede esattamente nella perfetta aderenza dello spoglio alle parole del testo, pure con lo svantaggio sostanziale della difficoltà di consultazione.

Uno degli svantaggi effettivi invece del modo lemmatizzato consiste nell’inevitabile distanza che si crea tra il lemma e la parola che l’autore aveva voluto inserire nel proprio testo, con il rischio di una perdita dell’informazione, per contro però ad un’estrema facilità di consultazione [21]

Posto che si decida per il modo lemmatizzato occorre domandarsi se sia possibile effettuarla in modo automatico o semiautomatico, in quanto è ovvio che su di un eventuale corpus di alcune decine di migliaia di forme si introdurrebbero moltissimi errori dovendo operare manualmente, battendo sulla tastiera tutti i lessemi. Esistono certamente strumenti informatici, come i dizionari macchina automatici, che possono agevolare l’operazione di lemmatizzazione, ma sarà sempre l’uomo a dover intervenire direttamente.

Questo è indispensabile perché la lemmatizzazione non può prescindere dalla comprensione del testo; innanzitutto nel caso degli omografi, parole graficamente scritte nello stesso modo ma dotate di significato differente, che devono essere ovviamente distinte. È sicuramente effettuabile una lemmatizzazione automatica, ma è preferibile optare per una semiautomatica, una lemmatizzazione assistita dal computer.

Si potrebbe allora operare nel modo seguente:

si avvia il programma di lemmatizzazione; si indica al lemmatizzatore quale è il testo da analizzare; a partire dalla prima forma del testo fino all’ultima il programma analizza la forma e in base al suo dizionario propone la o le analisi formalmente valide, possibili per quella forma; se nessuna analisi, e quindi nessun lemma è valido tra quelli proposti, viene aggiunto nel dizionario del lemmatizzatore un nuovo lemma con la sua descrizione morfologica; lo studioso sceglie l’analisi semanticamente corretta tra quelle che il computer ha proposto; il computer accoda il lemma in un file che contiene il testo lemmatizzato e accoda l’analisi della forma in un file che contiene le analisi delle forme [22] .

9.4 L’analisi dello stile

Sui risultati di indici e concordanze affonda le proprie radici l’analisi statistica della lingua; ad un primo livello è possibile compiere un’indagine circa la frequenza di apparizione di alcune parole, o la lunghezza delle stesse, in una determinata opera o in un corpus testuale, alla ricerca di costanti significative [23] .

Si entra così nel campo delle analisi stilometriche, indagini che consistono nell’applicazione di tecniche statistiche allo studio delle caratteristiche dello stile di un testo. Si tratta di misurare la lunghezza di parole (in lettere), o la lunghezza di frasi (in parole), o la frequenza d’uso di determinati tipi di parole, e da questi conti trarre delle statistiche. Statistiche che, come vedremo, se interpretate correttamente ed adeguatamente, possono aiutare nel chiarire problematiche di carattere letterario [24] . Questo significa che non è possibile limitarsi ad identificare tratti della scrittura che siano misurabili, esprimendoli in forma numerica, ma tentare di rendere significativi i numeri che il programma restituisce [25] .

Al fondo di ogni metodo informatico per l’analisi dei testi sta la:

convinzione che esista qualcosa - lo stile - che è non solo riconoscibile, e unico nelle sue specifiche manifestazioni (lo stylistic fingerprint [26] ) ma anche formalmente definibile/descrivibile, e può perciò...divenire oggetto di ricerca condotta utilizzando il computer [27] .

Lo stile è quindi ciò che caratterizza l’opera, o le opere, di un autore, oppure un testo specifico, e li distingue chiaramente rispetto ad altri simili per genere, epoca o argomento.

È considerato, in particolare, stylistic fingerprint, cioè caratteristiche tipiche e distintive di un’opera, una serie di usi stilistici: la lunghezza media delle frasi; la lunghezza media delle forme; la frequenza delle forme selezionate; la presenza di varianti grafiche; la presenza, la percentuale e la posizione delle parole vuote [28] . Anche le concordanze rimandano ai metodi stilometrici più diffusi, e dunque si rivelano assolutamente utili nell’individuazione degli usi stilistici [29] .

Queste operazioni possono essere realizzate per indagare, ad esempio, i vocaboli che, all’interno di una tradizione testuale afferente un medesimo autore, ricorrono più di sovente, e giungere quindi a caratterizzare lo stile proprio di un determinato scrittore. Ma non solo: l’analisi stilistica può condurre a formulare risultati che si possono rivelare ancora più utili.

Generalmente le analisi stilometriche vengono infatti impiegate al fine di individuare l’autore, o gli autori, di un’opera, assegnare cioè la paternità ad una pubblicazione circa la quale si dubita dell’autore, o addirittura non lo si conosce.

Quando si diffida circa l’integrità di un’opera, si ritiene cioè che una o più parti non siano dell’autore a cui l’intera opera è correntemente attribuita, si può voler individuare quali non sono le parti dell’autore dichiarato. L’opera viene così divisa in parti e si verifica se le caratteristiche delle varie parti sono omogenee, se le loro eventuali differenze rientrano in un margine di casualità, o se effettivamente si tratta di caratteristiche stilistiche differenti.

 Ovviamente si saranno esaminate le opere sicuramente ascrivibili a ciascuno degli autori, individuando le caratteristiche distintive e discriminanti dello stile di entrambe. Allora si potrà verificare quali parti riportano le caratteristiche individuate come proprie di un autore, quali i segni distintivi riconosciuti contraddistinguenti l’altro scrittore.

Può anche capitare di dover indagare un’opera apocrifa o anonima, al fine di individuarne l’autore. Si rintracciano quindi le caratteristiche distintive dell’opera e si individuano le peculiarità stilistiche dell’autore, o degli autori, cui si assegnerebbe la paternità dell’opera, per verificare eventuali somiglianze. Dopo aver dunque rilevato le caratteristiche proprie di ogni autore, si può giungere a formulare a quale di essi corrispondono le peculiarità stilistiche rintracciate nel testo [30] .

9.5 La scelta del programma per l'analisi del testo

La scelta del programma è un momento molto delicato in quanto qualunque operazione potrebbe venir vanificata da un programma scarsamente flessibile che consenta solo un ristretto numero di operazioni o di output.

È quindi necessario prima di acquistare un programma analizzare le proprie esigenze e scegliere il software che meglio si adatti a esse.

Oltre tutto è certo che l'esecuzione di indici e di concordanze è destinata a modificarsi rapidamente [31] . La diffusione a costi relativamente modesti di elaboratori di notevoli capacità rende possibile a molti l'esecuzione in proprio di elaborazioni mirate ai propri scopi. È quindi ormai certo che la memorizzazione e la codifica di testi siano il vero importante lavoro da compiere.

Si intendono qui elencare una serie di prodotti (di cui è facilmente reperibile informazione sul web) che permettono di effettuare operazioni di analisi testuale.

TACT
TACT (Text Analysis Computing Tools), è un sistema di analisi testuale, basato su un pacchetto di 15 programmi, (via MS-DOS), creato per eseguire operazioni di text-retrieval e analisi di testi letterari. Viene principalmente usato per ricerche di singole parole ma anche per interrogazioni complesse in quanto consente la gestione di operatori e raggruppamenti dei termini della ricerca. L'output può avere la forma di una concordanza, di  una lista, o di una tabella. L’utilizzo di questo prodotto è piuttosto ostico, non solo per la complessità delle operazioni da svolgere, ma anche perché i singoli programmi, girano solo in ambiente MS-DOS. Esiste anche un modulo (TACTWeb) che consente di interrogare gli indici full-text in ambiente Web. All'indirizzo http://history.furman.edu/
tactweb/doc/home.htm
è possibile consultare tutte le informazioni necessarie al funzionamento dell'applicativo e scaricare via ftp il pacchetto completo.

Concordance (http://www.rjcw.
freeserve.co.uk/
)

Gira in ambiente Windows e genera da uno o più testi ASCII un file con concordanze automaticamente convertibile in una pagina .html navigabile pronta per essere distribuita sul Web. All’interno delle concordanze è possibile effettuare ricerche di singole parole e ottenere liste di frequenze. Le occorrenze indicano come riferimento per la citazione il numero di linea del file di input utilizzato e non l'indicazione della suddivisione testuale alla quale quel contesto appartiene. È possibile utilizzare Concordance con i file XML, grazie al comando ‘ignore’ che esclude i caratteri compresi tra due marcatori, ma non è possibile operare ricerche che tengano conto dei tag come in Wordsmith e Monoconc. La versione scaricabile è una shareware che può essere utilizzata gratuitamente per 30 giorni.

ConcApp (http://www.edict.com.hk/
PUB/concapp/
)

L'applicativo ConcApp permette di effettuare veloci ed utili operazioni di analisi testuale su un testo scelto dall'utente. Si può ottenere l'elenco delle occorrenze di una parola e risalire al contesto, si possono effettuare analisi statistiche sulla frequenza di una parola o di una stringa (lista visualizzabile per frequenza o in ordine alfabetico) o anche la percentuale di parole usate una sola volta nel testo.

Wordsmith (http://www.lexically.net/
wordsmith/index.html
)

Pacchetto di strumenti di analisi linguistica particolarmente versatile e complesso: Wordlist per estrapolare la lista delle parole presenti nel testo e ottenere un output in ordine alfabetico o di frequenza; Concord per ottenere le concordanze di un testo; Keyword per trovare l’elenco delle parole chiave presenti.  Alcune interessanti funzioni dello strumento: è possibile dividere il testo analizzato in sezioni, elaborare e ottenere in output statistiche complesse, cercare occorrenze testuali ricorrendo ad un’interrogazione tramite operatori avanzati, collazionare due diversi testi alla ricerca dei luoghi varianti. Particolarmente interessante è la possibilità di lavorare con testi codificati in XML. I tag possono essere ignorati, ma anche utilizzati per ricavare statistiche dettagliate, cioè verificare le occorrenze testuali per partizioni strutturali o, in generale, per vocaboli codificati. Estremamente interessante la possibilità di effettuare una lemmatizzazione automatica. Quest'ultima operazione richiede, in ogni caso, la stesura di un elenco delle desinenze della lingua italiana, in quanto il programma è impostato per la lingua inglese. Completano il prodotto un viewer, utilizzabile anche come browser SGML, e un manuale d’uso estremamente dettagliato.

Monoconc Pro (http://www.athel.com/mono.html)

Prodotto in grado di gestire corpora complessi, composti da milioni di parole. Simile al suo concorrente Wordsmith, è particolarmente versatile nella visualizzazione delle occorrenze: utilizza il formato KWIC oltre a quello per frase, visualizza un contesto molto ampio, segnala tag particolari all’interno del contesto.

Conc (http://www.sil.org/computing/conc/)

Conc (unico prodotto per piattaforma Macintosh) lavora sulla realizzazione di concordanze e sulla produzione di indici (con frequenze di occorrenza di ogni vocabolo del testo). Conc visualizza il testo originale, le concordanze e l’indice in tre diverse finestre. Ciccando su una parola di una delle tre finestre è possibile visualizzare lo stesso vocabolo nelle altre due.

 indietro

Pagina stampabile

Invia la pagina per e-mail

 



 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

Note

[14] Con il termine lessicografia si intende lo “studio descrittivo dell’uso di elementi lessicali nel discorso”. Cfr. T. Orlandi, Informatica umanistica, cit., p. 125.

[15] Il vocabolario viene realizzato sempre in modo lemmatizzato (cfr. 9.3); per ogni singolo vocabolo si riporta cioè quella che è la sua forma grammaticale di base, individuandone quindi un solo lemma. Lo scopo della lemmatizzazione è infatti di avere, nel prodotto finale, le diverse forme grammaticali di una parola riunite sotto una sola forma fondamentale, esattamente quella che si trova nel vocabolario, Cfr. Ibid., p. 90.

[16] Sono già in commercio dizionari in formato elettronico (disponibili su CD), differenti dai dizionari macchina, che si propongono di aiutare l’utente all’atto della scrittura. Tali dizionari, caricati in memoria, possono aiutare chi scrive a controllare la grafia e il significato della parola, oltre ad essere normalmente utilizzati, nei moderni sistemi di videoscrittura, come correttori ortografici.

[17] Per la lemmatizzazione cfr. anche il contributo di M. Passarotti.

[18] T. Orlandi, Informatica Umanistica, cit., p. 90. Si avranno in questo modo di un testo le concordanze lemmatizzate: della parola di riferimento, cioè del lemma, verranno indicate le occorrenze totali (per esempio “amico 17”); di seguito verranno indicate le varie forme usate all’interno del testo (amico, amica, amici, amiche..) ognuna accompagnata dal contesto che ne consenta il reperimento.

[19] Per i software attualmente in uso nel campo della lemmatizzazione, rimando a M. Lana, L’uso del computer nell’analisi dei testi, cit., p. 72.

[20] Ibid., pp. 72-73.

[21] G. Gigliozzi, Il testo e il computer, cit., pp.186-187.

[22] M. Lana, L’uso del computer nell’analisi dei testi, cit., pp.73-74.

[23] G. Gigliozzi, Il testo e il computer, cit., p. 188.

[24] T. Orlandi, Informatica Umanistica, cit., p. 127.

[25] Cfr. G. Gigliozzi, Il testo e il computer, cit., p. 188-194.

[26] Letteralmente “impronta digitale stilistica”.

[27] M. Lana, L’uso del computer nell’analisi dei testi, cit., p.107.

[28] Ibid., p. 108.

[29] È certamente utile l’individuazione, all’interno di un testo, delle concordanze di parole, di singole lettere, dell’indice del lessico di un corpus, ecc. Cfr. Ibid., p. 108.

[30] Relativamente ai programmi utili per effettuare indagini stilometriche, rimando a Ibid., pp. 142-166.

[31] Non ha forse più utilità produrre tutte le concordanze stampate di un'opera ma strutturare la base di dati testuale in modo che sia oggetto di interventi computazionali ad hoc.

 

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica