Pagina Principale del sito Come contattarci e copyright Iscriviti ai forum e alla newsletter Agenda degli eventi I temi trattati Archivio delle prime pagine

Il Manuale

     

 indietro

Segue
Parte 6. I linguaggi di codifica

6.4 HTML – Hyper Text Markup Language (vai al tutorial)

Naturalmente il numero di DTD esistenti, definizioni di set di marcatori ad hoc per ogni corpus documentario dotato delle medesime caratteristiche strutturali, sono molteplici e l’optare per l’una o per l’altra significa aver individuato il proprio modello della fonte in oggetto. L’HTML è la DTD divenuta ufficiale nell’ambito della produzione di ipertesti, cioè di documenti navigabili a tutt’oggi disponibili sul web. L’HTML è quindi un prodotto SGML, nasce cioè nel rispetto delle specifiche della sintassi dello standard. Naturalmente essendo una DTD di SGML il set di marcatori proposti non è modificabile e l’utente-codificatore non può skippare verso un set differente, deve quindi conoscere il significato e il valore dei codici proposti dall’HTML e su questa base produrre la propria pagina web. I limiti insiti in questo linguaggio hanno condotto, di necessità, all’elaborazione di un linguaggio diverso, che consentisse la diffusione dei testi su Internet, a tutt’oggi lo strumento per eccellenza ai fini della distribuzione dell’informazione strutturata. 

6.4.1 I limiti dell’HTML

L’attuale stadio evolutivo delle tecnologie di gestione della documentazione in formato elettronico ha notevolmente contribuito a migliorare l’efficienza e la fruibilità del materiale in MRF; l’avvento delle reti e quindi di un sistema di interscambio delle informazioni di dimensioni mondiali, il Word Wide Web, ha condotto ad una sempre più consistente diffusione di dati strutturati. Tuttavia questa modernissima architettura soffre di alcuni limiti che inficiano l’ottimizzazione del suo operare. La causa sostanziale di tali limiti risiede nel cuore del Web, vale a dire nel linguaggio HTML.

Il primo gruppo di limiti riguarda essenzialmente l’incapacità di questo linguaggio di fornire un’adeguata rappresentazione dell’informazione. La rappresentazione e la codifica dei dati sono il fondamento di un sistema di gestione dell’informazione. L’HTML impone in questo senso pesanti restrizioni. In primo luogo è un linguaggio di rappresentazione non modificabile, quindi chiuso; questo significa che non è concesso al codificatore di intervenire personalmente laddove lo ritenga necessario: l’autore potrà solo scegliere entro un numero predefinito di elementi, capaci di descrivere solo taluni fenomeni testuali e non avrà la facoltà di esplicitarne di diversi, anche se la struttura del testo lo richiederebbe, o di qualificarli in modo differente.

In secondo luogo HTML è un linguaggio scarsamente strutturato, dotato di una sintassi poco potente, incapace di descrivere fenomeni complessi o informazioni altamente organizzate; ne consegue che non può essere utilizzato come sistema di interscambio per contenuti informazionali particolarmente elaborati come potrebbe essere un record di una base di dati. A tutto questo si aggiunge una spiccata predilezione per marcatori stilistici più che strutturali, cioè una codifica improntata alla descrizione dell’aspetto fisico del documento piuttosto che alla struttura logica del testo.

Un secondo limite dell’HTML è riguarda la definizione dei link ipertestuali. Questo linguaggio di codifica prevede infatti, in un costrutto ritenuto ipertestuale, il solo link unidirezionale: sia l’origine che la destinazione devono essere cioè esplicitate nei rispettivi documenti. Un sistema ipertestuale dovrebbe invece essere corredato da una serie di collegamenti ipertestuali, corrispondenti alle molteplici relazioni semantiche che si potrebbero definire tra gli elementi di un documento (link bidirezionali, link che puntano su sezioni strutturali di un documento di destinazione e non su una singola stringa, link sequenziali che identificano una serie di documenti fra loro correlati, ecc.).

Da questi limiti, che potremmo definire di natura rappresentazionale, ne derivano altri di natura operativa, riguardanti cioè il rapporto autore-sistema e lettore-sistema e quindi la loro facoltà di interagire con il documento codificato.

Innanzitutto la possibilità di un controllo più elastico da effettuarsi sull’aspetto del documento, che risulta invece alquanto rigido e limitato. Questo significa che una pagina Web deve essere progettata per un output dotato di caratteristiche predefinite, con il rischio quindi di non ottenere i medesimi risultati, visibili su un determinato schermo, quando li si prova a riprodurre su di un altro dispositivo di visualizzazione o nell’output si carta.

Inoltre HTML non consente di generare viste differenziate sul medesimo documento, facoltà talora necessaria alle esigenze di un ipotetico lettore (per esempio ottenere diverse versioni linguistiche a partire da un unico documento multilingua).

La limitata consistenza strutturale ostacola la creazione automatica e dinamica di indici e sommari. Per lo stesso motivo sono notevolmente ridotte efficienza, efficacia e globalità della ricerca di informazioni sul Web. I motori di ricerca si muovono secondo un information retrieval full-text, che non prende in considerazione la struttura del documento, ma restituisce riferimenti a documenti interi.

Succede poi sovente di rintracciare una pagina sul Web che è ovviamente solo una porzione di una più vasta collezione; spesso accade di trovare un link ad un indice, ad una home page, o altri riferimenti utili a raggruppare un insieme di dati relativi al medesimo contenuto informativo ed appartenenti al medesimo autore, o comunque inerenti lo stesso soggetto d’indagine. Accade che all’atto della stampa sia necessario operare su ogni singolo file HTML. Ci sarebbe invece un modo migliore per esprimere le interrelazioni sussistenti tra un set di pagine, in modo che possano essere processate come un unico file strutturato. Dovrebbe essere possibile aggiungere metadata (informazioni su di un’informazione, informazione quindi comprensibile dalla macchina, o meglio, l’insieme di dati che descrivono una o più risorse informative sotto un certo aspetto) alle pagine Web, e raggiungere quindi l’obiettivo della notifica delle mutue relazioni sussistenti tra le singole pagine.

Per concludere, a rendere ancora più complessa la situazione, sono intervenuti anche i browers, Netscape e Microsoft, che hanno iniziato l’infelice pratica dell’introduzione di loro proprie e individuali “extensions” al linguaggio HTML. Questo ha condotto gli autori di pagine Web a giungere a pesanti compromessi, al fine di rendere le loro pagine accessibili all’utenza, pur volendo impiegare le ultime features introdotte dai browser vendors. La conseguenza inevitabile è stata la realizzazione di siti inadeguati. Gli autori devono comprendere che il Web non è realmente Word Wide se essi scelgono di utilizzare “extensions” non universalmente supportate.

Per superare questi limiti si è tentata una generalizzazione del supporto sul Web ad SGML, il linguaggio standard da cui deriva lo stesso HTML, un’applicazione particolare dello standard ISO. L’obiettivo è stato quello di modificare la stessa architettura del Web per consentire di usare anche altre applicazioni SGML, oltre a quella universalmente nota, l’HTML. Questo consentirebbe la distribuzione di documenti in MRF con formato SGML, garantendo un potere di controllo dell’autore sulla struttura delle informazioni pubblicate; ogni editore potrebbe utilizzare il linguaggio di codifica più adeguato alle sue necessità, a cui poi associare uno o più fogli di stile, sovrintendendo così alla presentazione dei documenti pubblicati.

Per superare questi ostacoli si è deciso quindi di sviluppare un sottinsieme semplificato di SGML, appositamente pensato ai fini della creazione di documenti sul Web. Questo linguaggio è stato denominato XML, Extensible Markup Language.

6.5 XML – Extensible Markup Language (vai al tutorial) [21]

La codifica SGML dei testi elettronici offre una serie di consistenti vantaggi dal punto di vista del trattamento informatico.

In primo luogo, potendo un file SGML essere compilato ricorrendo esclusivamente a stringhe di caratteri ASCII stampabili, esso è facilmente portabile su ogni tipo di piattaforma hardware e software. Inoltre un testo codificato secondo il formato SGML può essere impiegato per differenti scopi, variabili secondo il trattamento computazionale cui sottoporre la fonte (stampa su carta, presentazione multimediale, indagine ed analisi effettuata tramite specifici software, elaborazione all’interno di una base di dati) consentendo di evitare il ricorso a conversioni tra formati spesso incompatibili. Infine la natura altamente strutturata di un documento SGML si presta allo sviluppo di complesse applicazioni (aggiornamento di database o creazione di strumenti di information retrieval contestuali).

L’adozione di una tecnologia come SGML sul Web risolverebbe molti dei problemi che ne limitano le enormi potenzialità. Tuttavia SGML è dotato di una complessità tale da renderne alquanto difficile l’implementazione. Per questa ragione il W3C (Word Wide Web Consortium), ha optato per la realizzazione di una versione semplificata dello standard ISO che ha condotto allo sviluppo dell’XML.

XML è dunque un sottinsieme di SGML semplificato ed ottimizzato specificamente per applicazioni in ambiente Word Wide Web. Le caratteristiche dell’XML sono quindi molto simili a quelle dell’SGML (sia per quanto riguarda i principi di codifica che per quello che concerne le specifiche della DTD). Si tratta dunque di un vero metalinguaggio, che permette di specificare molteplici classi di linguaggi di marcatura, e non una semplice applicazione SGML come HTML (che si configura come uno dei possibili linguaggi di codifica conformi alla sintassi SGML).

La grande novità che caratterizza XML, in antitesi a HTML, orientato alla descrizione della struttura fisica del documento e della rappresentazione “visiva” dello stesso, è la propensione alla descrizione delle informazioni testuali in un formato leggibile e comprensibile dall’utente, prescindendo dalle indicazioni relative a come i dati devono essere visualizzati. XML è  un database-neutral e un device-neutral format; solo in un secondo momento i dati codificati in XML potranno essere indirizzati a differenti devices, usando l’Extensible Style Sheet Language (XSL). Essendo XML extensible, rispetto a HTML (che prevede il solo utilizzo di prefissati set di elementi) il suo utilizzo eliminerà il bisogno da parte dei produttori di browser di aggiungere specifici tag HTML incompatibili (le “extensions” di cui si diceva).

Questo è possibile perchè XML è un metalinguaggio impiegato per realizzare altri linguaggi specifici, denominati anche “vocabolari”. Ogni vocabulary può essere costruito mediante il ricorso ad una DTD  che fornisce le regole necessarie alla definizione degli elementi e della struttura del nuovo linguaggio [22] .  

Dunque anche un singolo documento XML valido, un singolo esemplare di documento conforme a XML, deve essere associato ad una DTD che ne specifica la grammatica. Tuttavia a differenza di SGML, XML consente la distribuzione anche di documenti privi di DTD, documenti well-formed, dotati di una sintassi più rigida rispetto a quella di un documento SGML (per esempio è sempre obbligatorio inserire i marcatori di chiusura negli elementi non vuoti). Per questa ragione alcune delle più complesse caratteristiche di SGML, che ne accrescono la complessità computazionale, sono state eliminate in fase di realizzazione del nuovo progetto del Consortium. Sono state dunque introdotte novità nella sintassi, giungendo ad una consistente riduzione della complessità di implementazione di un browser XML e facilitando di molto l’apprendimento del linguaggio. La semplificazione poi non comporta alcuna incompatibilità: un documento XML valido è sempre un documento SGML valido; ne deriva che il passaggio e quindi la trasformazione di un’applicazione o di un documento SGML in uno XML è una procedura quasi sempre automatica.

In termini opposti alla tendenza ora dominante nell’ambito delle recenti tecnologie Web, XML è orientato alla descrizione della struttura del testo e non alla rappresentazione visiva del documento. Un file HTML riflette il privilegio accordato alla rappresentazione della struttura del documento ma non ad un altrettanto adeguata descrizione della struttura dei dati. Un markup HTML si limita a fornire informazioni necessarie a comprendere come gli elementi testuali sono disposti all’interno della pagina, ma non fornisce alcuna informazione utile a comprendere il significato degli elementi codificati, in quanto ogni singolo tag non apporta nessuna nozione relativa al blocco di testo cui è affiancato. Quando un documento HTML viene processato dal browser, la semantica viene ignorata, la macchina non comprende quale tipo di informazione deve essere resa, il contenuto informazionale del testo non è oggetto di indagine.

Viceversa una codifica XML presta attenzione non all’aspetto degli elementi testuali, cioè alla loro distribuzione fisica, ma al contenuto di ogni singola partizione; esprime quindi, tramite il ricorso a marcatori alfabetici, il significato della stringa di caratteri cui il tag è associato. Diremo che XML focalizza la codifica sulla semantica e sulla struttura dei dati, mantenendo altresì l’ordinamento gerarchico che sovrintende l’organizzazione degli elementi della fonte. Ne deriva un assoluto parallelismo con la distribuzione dei record all’interno di una base di dati.

L’insieme delle specifiche del progetto XML permette dunque di creare, gestire, manipolare e mantenere applicazioni ipermediali complesse in rete. XML si configura dunque come un potente metalinguaggio in grado di superare quella molteplicità di limitazioni di una delle più note applicazioni SGML, HTML. La possibilità di introdurre tag custom per codificare ogni tipo di fenomeno testuale o di elemento documentale fa di XML uno strumento innovativo. Senza dimenticare che l’attenzione accordata all’analisi della struttura dei dati, con la possibilità fornita all’utente di comprendere il significato delle componenti testuali grazie all’utilizzo personalizzato dei marcatori, costituisce una imprescindibile potenzialità di XML. L’essere XML un sottinsieme di SGML, compatibile con HTML, consente spesso di non dover ricorrere all’elaborazione di nuovi tool per la gestione e la manipolazione dei documenti codificati secondo le specifiche del W3C; molteplici parser e conversion tool nati per HTML e SGML funzionano in modo ottimale anche con XML.

La progressiva implementazione delle specifiche del W3C rappresenta un salto evolutivo nell’architettura del web; il fatto che l’industria delle tecnologie Internet, ed in particolare le aziende leader del settore, Microsoft e Netscape, l’abbiano accolto e supportato consente di pensare in termini positivi ad un futuro salto definitivo di XML nel Word Wide Web.     

 indietro



 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

[21] I manuali a tutt’oggi in commercio sul linguaggio XML sono davvero moltissimi. Vista la continua evoluzione del linguaggio e la costante revisione delle specifiche correlate, si consiglia di visitare la serie dei siti web dedicati. Primo fra tutti il sito ufficiale che riporta le specifiche tecniche: http://www.w3.org
XML; il sito di Robin Cover, il migliore fra quelli esistenti, che presenta materiale utile realtivo al linguaggio, alle specifiche e agli standard, alle risorse web, al software, ecc: http://www.oasis-open.org/
cover/sgml-
xml.html
; un corso e un tutorial XML dal sito html.it: http://www.html.it
/xml
; tutto sul software XML disponibile al sito http://www.
xmlsoftware.com

[22] Ora esiste anche una versione della TEI utilizzabile con XML. E’ stato sufficiente adeguare la TEI per SGML alle richieste della sintassi XML. Cfr. http://www.tei-c.org

  Università degli Studi di Bologna
e ArchetipoLibri
AddThis Social Bookmark Button
Altre informazioni

 

Formazione e Didattica Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online

 

 

 

Risorse on line Il Bollettino del '900 Informatica Umanistica I percorsi di Griselda Online Il Glossario di Informatica Umanistica