Cerca su Griselda
Questo sito usa cookie di terze parti. Leggi la nostra Informativa cookies oppure chiudi questo avviso

Indice

Informatica:

La linguistica computazionale:
un crogiolo di esperienze multidisciplinari

Uno sguardo al passato / La Linguistica Computazionale oggi / Conclusioni

In questo breve saggio, tenterò di delineare e caratterizzare i confini, peraltro molto sfumati, di una disciplina che, nata attorno alla metà del secolo scorso, affronta problemi estremamente attuali, specialmente in questi anni nei quali il trattamento dell’informazione è divenuto uno degli aspetti centrali della nostra vita quotidiana. Per far questo mi avvarrò di numerosi e preziosi contributi di studiosi che, negli anni, hanno analizzato e descritto attentamente l’evoluzione della disciplina [Ferrari, 2005; Key, 2003; Lee, 2001; Mitkov, 2003; Spärck Jones, 2007].
Gli ovvi limiti di spazio mi costringeranno a tratteggiare brevemente argomenti che meriterebbero, e hanno meritato in passato, ben più ampie discussioni, e di questo mi scuso anticipatamente.

La Linguistica Computazionale (o Natural Language Processing – Trattamento Automatico delle Lingue) – d’ora in poi LC – è un settore fortemente interdisciplinare, e si occupa dell’elaborazione delle lingue, in ogni possibile aspetto, mediante l’uso di calcolatori. Dalla sua nascita alla fine degli anni ’50, e dalla sua configurazione come disciplina autonoma, ha subito una crescita esponenziale in diverse direzioni arrivando ad attingere contributi da ambiti quali la linguistica, che produce i modelli teorici del linguaggio, la psicologia, che fornisce un’analisi dei processi cognitivi, la teoria dell’informazione, che analizza le modalità comunicative, la matematica e la statistica, che forniscono gli strumenti per esprimere tali modelli in modo computazionalmente trattabile e naturalmente l’informatica per quanto riguarda lo sviluppo degli algoritmi atti ad implementare i modelli teorici dei fenomeni linguistici.

Nelle aspettative comuni questa disciplina dovrebbe riuscire, in un futuro auspicabilmente prossimo, ma tuttavia non ben definibile, a produrre macchine in grado di interagire con gli esseri umani utilizzando il linguaggio naturale. Nella letteratura e cinematografia fantascientifica gli esempi di tali visioni sono numerosi (si pensi ad esempio all’elaboratore HAL9000 del film 2001 odissea nello spazio o al robot C-3PO della saga di Guerre stellari). Tuttavia queste “macchine” sono ancora lontane, e gli esempi più sofisticati a nostra disposizione sono ben lungi dal poter soddisfare queste aspettative. E’ lecito quindi chiedersi: perché dopo più di cinquant’anni di intensa ricerca non si è ancora riusciti a centrare il bersaglio “imbrigliando” il linguaggio umano in opportuni modelli atti ad essere formalizzati e implementati con programmi per calcolatori? Dopo tutto un bambino si appropria di una lingua in pochi anni e senza seguire alcun corso sulla struttura e le caratteristiche della lingua stessa.
Molto del successo del linguaggio umano nei processi comunicativi deriva dall’innata abilità degli esseri umani nel gestire imprecisioni e ambiguità in modo efficiente, evincendo da un insieme estremamente ampio di stimoli e informazioni relative al contesto, testuale, situazionale ed emotivo, la corretta interpretazione e il senso del messaggio, un contesto ben più esteso delle poche parole utilizzate tradizionalmente nei sistemi di analisi testuale. La stessa forzata suddivisione dei task classici della LC (analisi morfologica, PoS-tagging, parsing, ecc…) mantenendo la divisione nei tradizionali livelli d’analisi a causa della mancanza di adeguate risorse modellistico-computazionali, introduce, spesso artificiosamente, un numero enorme di ambiguità, e quindi di problemi da risolvere computazionalmente, rendendo ogni task estremamente complesso da trattare con metodi automatici.
Questo ha generato negli anni situazioni estremamente frustranti e di tensione tra i linguisti computazionali, che in certi casi, hanno acquisito la reputazione di non essere in grado di far fronte alle sfide tecnologiche costruendo adeguati modelli teorici in grado di supportare la costruzione di sistemi performanti ed efficienti. Molti di questi problemi sono tuttavia dovuti al fallimento, o quantomeno allo scarso successo, degli studi nel campo dell’intelligenza artificiale (IA) degli ultimi 25/30 anni, campo di studi che ingloba, in qualche modo, la LC e che è sempre stato il principale riferimento della disciplina per attingere metodi e modelli.

Come ogni disciplina legata alle scienze naturali ha le sue sfide e i suoi “grandi problemi” da affrontare, così la linguistica computazionale si trova a dover fronteggiare alcune grandi sfide: machine translation, information extraction, text summarisation, document retrieval and indexing, speech recognition, production and understanding, natural language interfaces, interactive dialogue systems, semantic Web, sono solo alcuni dei problemi chiave che chiamano la disciplina e gli studiosi che vi lavorano a fornire soluzioni adeguate, sia teorico-modellistiche sia sperimentali e applicative.

Uno sguardo al passato

I primi approcci alla disciplina nascono da una moltitudine di contributi interdisciplinari che configurano un punto di vista empirico e distribuzionale sia in ambito linguistico [Firth, 1957; Harris, 1951] sia in ambiti più modellistico-tecnologici [Shannon, 1948; Turing, 1950; Weaver, 1949]. Questi studi, partendo dal concetto fondamentale che le co-occorrenze (o correlazioni) all’interno dei fenomeni sono fonti importanti di informazioni sulla lingua, delinearono una metodologia di indagine focalizzata principalmente sull’evidenza empirica di tali fenomeni, sulla parole, in termini saussuriani e su processi di analisi induttiva dei dati.
La proposta generativista [Chomsky, 1957] scardinò completamente questi primi approcci all’analisi linguistica con strumenti computazionali, spostando l’attenzione verso punti di vista razionalistici, basati prevalentemente su una visione del linguaggio come un oggetto formale, matematicamente descrivibile e in parte biologicamente determinato nel cervello umano, indagabile principalmente attraverso processi introspettivi e con metodi deduttivi che sono risultati estremamente adatti ad essere utilizzati con gli elaboratori. Le osservazioni di Chomsky sulla finitezza del materiale empirico a disposizione e la conseguente impossibilità di compiere indagini complete, frenarono prepotentemente gli studi condotti su base empirica [Chomsky, ibid] spostando la barra del timone della ricerca in LC verso metodologie basate su regole.
Nei primi anni ’90 si è assistito ad un ritorno massiccio degli studi di carattere empirista, grazie all’introduzione di nuove metodologie di elaborazione dei dati empirici su base stocastico-statistica, al successo di tali metodologie nella costruzione di applicazioni reali, e a nuove indagini psicolinguistiche che hanno mostrato come l’apprendimento linguistico umano sia basato su criteri statistici molto più di quanto si pensasse fino a quel momento. (continua)

avanti  >
Alma Mater Studiorum
Dipartimento di Filologia Classica E Italianistica Alma Mater Studiorum - Università di Bologna
Via Zamboni 32 - 40126 Bologna - Cod.Fiscale: 80007013376 P.Iva: 01131710376 - © 2012
CREDITS: MEDIAVISION