|
Segue
Parte 9. Lanalisi
testuale
indietro
d) Il dizionario macchina
Tramite lindividuazione
di indici e concordanze, linformatica
può senzaltro apportare un consistente
aiuto allambito della lessicografia [14] , concorrendo nel migliorare
la qualità dei dizionari tradizionali, ma
soprattutto tentando di indicare la strada
per produrre un nuovo tipo di dizionario
informatico. Il cosiddetto dizionario macchina
consiste di un file nel quale sono indicati
tutti i lessemi [15] , tratti da tutti i testi
disponibili in MRF di cui sia stata operata
lindicizzazione, dove ad ogni vocabolo
sono associate tutte le informazioni tipiche
di un dizionario. I procedimenti automatici
sono in grado, mediante il confronto tra
testo elettronico e dizionario macchina,
di fornire allutente, per ogni parola,
il corredo di informazioni relative alla
stessa
[16] . Ovviamente la diffusione di tali
dizionari è strettamente correlata alla
disponibilità di testi in MRF o, meglio
ancora, di basi di dati testuali.
Per concludere diremo che
linformatica, in questo specifico
caso dellanalisi del testo e in tutti
i casi in cui vengono messe in gioco esclusivamente
le sue più ovvie e note abilità, non produce
in realtà risultati differenti da quelli
ottenibili con risultati tradizionali, ma
permette di ottenere con maggiore rapidità,
e su una massa di dati più ampia, risultati
più attendibili.
9.3 La lemmatizzazione [17]
Il campo della lemmatizzazione
è proprio di una delle principali applicazioni
di procedimenti automatizzati alle discipline
umanistiche, e per questo richiede una trattazione
individuale.
Lemmatizzare un testo significa
individuare un unico lemma, cioè ununica
forma grammaticale, per i vocaboli che,
nelle lingue naturali, sono caratterizzati
dallessere forme flesse:
e quindi i tempi dei verbi semplici e composti,
i sostantivi, gli aggettivi, gli articoli,
i pronomi, cioè tutte le parti del discorso
declinabili al maschile o al femminile,
al singolare o al plurale.
La lemmatizzazione si pone
come obiettivo di ricondurre ad unità queste
forme raccogliendole sotto un unica forma
base, quella che appare cioè come riferimento
nei vocabolari.
Una volta che il testo sia
stato posto in machine readable form,
che ne sia stata opportunamente individuata
e descritta la struttura, che sia stato
cioè adeguatamente codificato, occorre decidere
se sia meglio lemmatizzarlo oppure no. Effettuato
quindi il primo spoglio linguistico ci si
troverà di fronte ad un risultato che, a
seconda dei punti di vista, potrà essere
ritenuto definitivo, oppure un semplice
punto di passaggio per ulteriori elaborazioni.
È infatti possibile decidere
per un output del testo da presentarsi in
modo non lemmatizzato e accontentarsi del
risultato raggiunto, oppure ritenere insufficiente
il livello di elaborazione a cui si è pervenuti
e decidere per il modo lemmatizzato.
I programmi, attualmente in
commercio, che consentono di effettuare
operazioni di analisi testuale e, in particolare
di produrre indici e concordanze, consentono
anche di individuare, allinterno del
testo, vocaboli di cui si necessiti di rintracciare
solo la radice; lutente potrà far
seguire la stringa di caratteri da un apposito
segno di codifica, che verrà compreso dal
programma: per esempio si potrà istruire
il software affinché ricerchi tutte le parole
che cominciano con amic (amico, amica,
amici..) o con cant (cantare, cantai,
cantasti, cantavo, cantavamo, canterò, ecc.)
riconducendo quindi ad un unico lemma tutte
le forme grammaticali del vocabolo amico
(e optando per questo vocabolo come soggetto
in un indice o parola di riferimento nella
lista delle concordanze) e riportando nellindice
o nella concordanza il verbo cantare
allinfinito, eliminando quindi
tutte le coniugazioni e i tempi verbali
[18] .
Esistono però anche programmi
specifici per la lemmatizzazione, o più
in generale per lanalisi morfologica
dei testi
[19] .
Il vantaggio del modo lemmatizzato,
rispetto a quello non lemmatizzato, è duplice:
innanzitutto è assodato che la massa delle
forme (cioè la molteplicità delle forme
afferenti la stessa parola) è essenzialmente
rumore, e dunque qualsiasi mezzo
che aiuti a ridurlo o ad eliminarlo pone
in maggiore evidenza linformazione
che il rumore disturbava; in secondo luogo
la variabilità formale è effetto della struttura,
grammaticale o sintattica, della lingua
in uso ed eliminarla significa porre in
evidenza pure parole, significa attribuire
ai concetti valore preminente sulla grammatica
e sulla sintassi
[20] .
Può dunque rivelarsi significativo
optare per il modo lemmatizzato soprattutto
nel caso in cui interessi studiare idee
e concetti propri dellopera o dellautore
piuttosto delle scelte grammaticali o sintattiche.
È chiaro che esistono casi
in cui può essere utile mantenere la forma
grammaticale o sintattica di ciascun vocabolo,
e in queste circostanze si ricorrerà al
modo non lemmatizzato, il cui vantaggio
risiede esattamente nella perfetta aderenza
dello spoglio alle parole del testo, pure
con lo svantaggio sostanziale della difficoltà
di consultazione.
Uno degli svantaggi effettivi
invece del modo lemmatizzato consiste nellinevitabile
distanza che si crea tra il lemma e la parola
che lautore aveva voluto inserire
nel proprio testo, con il rischio di una
perdita dellinformazione, per contro
però ad unestrema facilità di consultazione [21] .
Posto che si decida per il
modo lemmatizzato occorre domandarsi se
sia possibile effettuarla in modo automatico
o semiautomatico, in quanto è ovvio che
su di un eventuale corpus di alcune decine
di migliaia di forme si introdurrebbero
moltissimi errori dovendo operare manualmente,
battendo sulla tastiera tutti i lessemi.
Esistono certamente strumenti informatici,
come i dizionari macchina automatici, che
possono agevolare loperazione di lemmatizzazione,
ma sarà sempre luomo a dover intervenire
direttamente.
Questo è indispensabile perché
la lemmatizzazione non può prescindere dalla
comprensione del testo; innanzitutto nel
caso degli omografi, parole graficamente
scritte nello stesso modo ma dotate di significato
differente, che devono essere ovviamente
distinte. È sicuramente effettuabile una
lemmatizzazione automatica, ma è preferibile
optare per una semiautomatica, una lemmatizzazione
assistita dal computer.
Si potrebbe allora operare
nel modo seguente:
si avvia il programma di
lemmatizzazione; si indica al lemmatizzatore
quale è il testo da analizzare; a partire
dalla prima forma del testo fino allultima
il programma analizza la forma e in base
al suo dizionario propone la o le analisi
formalmente valide, possibili per quella
forma; se nessuna analisi, e quindi nessun
lemma è valido tra quelli proposti, viene
aggiunto nel dizionario del lemmatizzatore
un nuovo lemma con la sua descrizione
morfologica; lo studioso sceglie lanalisi
semanticamente corretta tra quelle che
il computer ha proposto; il computer accoda
il lemma in un file che contiene il testo
lemmatizzato e accoda lanalisi della
forma in un file che contiene le analisi
delle forme
[22] .
9.4 Lanalisi dello
stile
Sui risultati di indici e
concordanze affonda le proprie radici lanalisi
statistica della lingua; ad un primo livello
è possibile compiere unindagine circa
la frequenza di apparizione di alcune parole,
o la lunghezza delle stesse, in una determinata
opera o in un corpus testuale, alla ricerca
di costanti significative [23] .
Si entra così nel campo delle
analisi stilometriche, indagini che consistono
nellapplicazione di tecniche statistiche
allo studio delle caratteristiche dello
stile di un testo. Si tratta di misurare
la lunghezza di parole (in lettere), o la
lunghezza di frasi (in parole), o la frequenza
duso di determinati tipi di parole,
e da questi conti trarre delle statistiche.
Statistiche che, come vedremo, se interpretate
correttamente ed adeguatamente, possono
aiutare nel chiarire problematiche di carattere
letterario [24] . Questo significa che non è possibile
limitarsi ad identificare tratti della scrittura
che siano misurabili, esprimendoli in forma
numerica, ma tentare di rendere significativi
i numeri che il programma restituisce
[25] .
Al fondo di ogni metodo informatico
per lanalisi dei testi sta la:
convinzione che esista qualcosa
- lo stile - che è non solo riconoscibile,
e unico nelle sue specifiche manifestazioni
(lo stylistic fingerprint
[26] ) ma anche formalmente definibile/descrivibile,
e può perciò...divenire oggetto di ricerca
condotta utilizzando il computer [27] .
Lo stile è quindi ciò che
caratterizza lopera, o le opere, di
un autore, oppure un testo specifico, e
li distingue chiaramente rispetto ad altri
simili per genere, epoca o argomento.
È considerato, in particolare,
stylistic fingerprint, cioè caratteristiche
tipiche e distintive di unopera, una
serie di usi stilistici: la lunghezza media
delle frasi; la lunghezza media delle forme;
la frequenza delle forme selezionate; la
presenza di varianti grafiche; la presenza,
la percentuale e la posizione delle parole
vuote [28] . Anche le concordanze
rimandano ai metodi stilometrici più diffusi,
e dunque si rivelano assolutamente utili
nellindividuazione degli usi stilistici
[29] .
Queste operazioni possono
essere realizzate per indagare, ad esempio,
i vocaboli che, allinterno di una
tradizione testuale afferente un medesimo
autore, ricorrono più di sovente, e giungere
quindi a caratterizzare lo stile proprio
di un determinato scrittore. Ma non solo:
lanalisi stilistica può condurre a
formulare risultati che si possono rivelare
ancora più utili.
Generalmente le analisi stilometriche
vengono infatti impiegate al fine di individuare
lautore, o gli autori, di unopera,
assegnare cioè la paternità ad una pubblicazione
circa la quale si dubita dellautore,
o addirittura non lo si conosce.
Quando si diffida circa lintegrità
di unopera, si ritiene cioè che una
o più parti non siano dellautore a
cui lintera opera è correntemente
attribuita, si può voler individuare quali
non sono le parti dellautore dichiarato.
Lopera viene così divisa in parti
e si verifica se le caratteristiche delle
varie parti sono omogenee, se le loro eventuali
differenze rientrano in un margine di casualità,
o se effettivamente si tratta di caratteristiche
stilistiche differenti.
Ovviamente si saranno esaminate
le opere sicuramente ascrivibili a ciascuno
degli autori, individuando le caratteristiche
distintive e discriminanti dello stile di
entrambe. Allora si potrà verificare quali
parti riportano le caratteristiche individuate
come proprie di un autore, quali i segni
distintivi riconosciuti contraddistinguenti
laltro scrittore.
Può anche capitare di dover
indagare unopera apocrifa o anonima,
al fine di individuarne lautore. Si
rintracciano quindi le caratteristiche distintive
dellopera e si individuano le peculiarità
stilistiche dellautore, o degli autori,
cui si assegnerebbe la paternità dellopera,
per verificare eventuali somiglianze. Dopo
aver dunque rilevato le caratteristiche
proprie di ogni autore, si può giungere
a formulare a quale di essi corrispondono
le peculiarità stilistiche rintracciate
nel testo
[30] .
9.5 La scelta
del programma per l'analisi del testo
La scelta del programma è
un momento molto delicato in quanto qualunque
operazione potrebbe venir vanificata da
un programma scarsamente flessibile che
consenta solo un ristretto numero di operazioni
o di output.
È quindi necessario prima
di acquistare un programma analizzare le
proprie esigenze e scegliere il software
che meglio si adatti a esse.
Oltre tutto è certo che l'esecuzione
di indici e di concordanze è destinata a
modificarsi rapidamente [31] . La diffusione a costi
relativamente modesti di elaboratori di
notevoli capacità rende possibile a molti
l'esecuzione in proprio di elaborazioni
mirate ai propri scopi. È quindi ormai certo
che la memorizzazione e la codifica di testi
siano il vero importante lavoro da compiere.
Si intendono qui elencare
una serie di prodotti (di cui è facilmente
reperibile informazione sul web) che permettono
di effettuare operazioni di analisi testuale.
TACT
TACT (Text Analysis Computing
Tools), è un sistema di analisi testuale,
basato su un pacchetto di 15 programmi,
(via MS-DOS), creato per eseguire operazioni
di text-retrieval e analisi di testi
letterari. Viene principalmente usato per
ricerche di singole parole ma anche per
interrogazioni complesse in quanto consente
la gestione di operatori e raggruppamenti
dei termini della ricerca. L'output può
avere la forma di una concordanza, di una
lista, o di una tabella. Lutilizzo
di questo prodotto è piuttosto ostico, non
solo per la complessità delle operazioni
da svolgere, ma anche perché i singoli programmi,
girano solo in ambiente MS-DOS. Esiste anche
un modulo (TACTWeb) che consente di interrogare
gli indici full-text in ambiente
Web. All'indirizzo http://history.furman.edu/
tactweb/doc/home.htm è possibile consultare
tutte le informazioni necessarie al funzionamento
dell'applicativo e scaricare via ftp il
pacchetto completo.
Concordance (http://www.rjcw.
freeserve.co.uk/)
Gira in ambiente Windows e
genera da uno o più testi ASCII un file
con concordanze automaticamente convertibile
in una pagina .html navigabile pronta per
essere distribuita sul Web. Allinterno
delle concordanze è possibile effettuare
ricerche di singole parole e ottenere liste
di frequenze. Le occorrenze indicano come
riferimento per la citazione il numero di
linea del file di input utilizzato e non
l'indicazione della suddivisione testuale
alla quale quel contesto appartiene. È possibile
utilizzare Concordance con i file XML, grazie
al comando ignore che esclude
i caratteri compresi tra due marcatori,
ma non è possibile operare ricerche che
tengano conto dei tag come in Wordsmith
e Monoconc. La versione scaricabile è una
shareware che può essere utilizzata gratuitamente
per 30 giorni.
ConcApp
(http://www.edict.com.hk/
PUB/concapp/)
L'applicativo ConcApp permette
di effettuare veloci ed utili operazioni
di analisi testuale su un testo scelto dall'utente.
Si può ottenere l'elenco delle occorrenze
di una parola e risalire al contesto, si
possono effettuare analisi statistiche sulla
frequenza di una parola o di una stringa
(lista visualizzabile per frequenza o in
ordine alfabetico) o anche la percentuale
di parole usate una sola volta nel testo.
Wordsmith (http://www.lexically.net/
wordsmith/index.html)
Pacchetto di strumenti di
analisi linguistica particolarmente versatile
e complesso: Wordlist per estrapolare
la lista delle parole presenti nel testo
e ottenere un output in ordine alfabetico
o di frequenza; Concord per ottenere
le concordanze di un testo; Keyword
per trovare lelenco delle parole chiave
presenti. Alcune interessanti funzioni
dello strumento: è possibile dividere il
testo analizzato in sezioni, elaborare e
ottenere in output statistiche complesse,
cercare occorrenze testuali ricorrendo ad
uninterrogazione tramite operatori
avanzati, collazionare due diversi testi
alla ricerca dei luoghi varianti. Particolarmente
interessante è la possibilità di lavorare
con testi codificati in XML. I tag possono
essere ignorati, ma anche utilizzati per
ricavare statistiche dettagliate, cioè verificare
le occorrenze testuali per partizioni strutturali
o, in generale, per vocaboli codificati.
Estremamente interessante la possibilità
di effettuare una lemmatizzazione automatica.
Quest'ultima operazione richiede, in ogni
caso, la stesura di un elenco delle desinenze
della lingua italiana, in quanto il programma
è impostato per la lingua inglese. Completano
il prodotto un viewer, utilizzabile
anche come browser SGML, e un manuale duso
estremamente dettagliato.
Monoconc Pro (http://www.athel.com/mono.html)
Prodotto in grado di gestire
corpora complessi, composti da milioni di
parole. Simile al suo concorrente Wordsmith,
è particolarmente versatile nella visualizzazione
delle occorrenze: utilizza il formato KWIC
oltre a quello per frase, visualizza un
contesto molto ampio, segnala tag particolari
allinterno del contesto.
Conc (http://www.sil.org/computing/conc/)
Conc (unico prodotto per piattaforma
Macintosh) lavora sulla realizzazione di
concordanze e sulla produzione di indici
(con frequenze di occorrenza di ogni vocabolo
del testo). Conc visualizza il testo originale,
le concordanze e lindice in tre diverse
finestre. Ciccando su una parola di una
delle tre finestre è possibile visualizzare
lo stesso vocabolo nelle altre due.
|