|
indietro
Segue
Parte 6. I linguaggi
di codifica
6.4 HTML
Hyper Text Markup Language (vai
al tutorial)
Naturalmente il numero di DTD
esistenti, definizioni di set di marcatori
ad hoc per ogni corpus documentario
dotato delle medesime caratteristiche strutturali,
sono molteplici e loptare per luna
o per laltra significa aver individuato
il proprio modello della fonte in oggetto.
LHTML è la DTD divenuta ufficiale
nellambito della produzione di ipertesti,
cioè di documenti navigabili a tuttoggi
disponibili sul web. LHTML è quindi
un prodotto SGML, nasce cioè nel rispetto
delle specifiche della sintassi dello standard.
Naturalmente essendo una DTD di SGML il
set di marcatori proposti non è modificabile
e lutente-codificatore non può skippare
verso un set differente, deve quindi conoscere
il significato e il valore dei codici proposti
dallHTML e su questa base produrre
la propria pagina web. I limiti insiti in
questo linguaggio hanno condotto, di necessità,
allelaborazione di un linguaggio diverso,
che consentisse la diffusione dei testi
su Internet, a tuttoggi lo strumento
per eccellenza ai fini della distribuzione
dellinformazione strutturata.
6.4.1 I limiti dellHTML
Lattuale stadio evolutivo
delle tecnologie di gestione della documentazione
in formato elettronico ha notevolmente contribuito
a migliorare lefficienza e la fruibilità
del materiale in MRF; lavvento delle
reti e quindi di un sistema di interscambio
delle informazioni di dimensioni mondiali,
il Word Wide Web, ha condotto ad una sempre
più consistente diffusione di dati strutturati.
Tuttavia questa modernissima architettura
soffre di alcuni limiti che inficiano lottimizzazione
del suo operare. La causa sostanziale di
tali limiti risiede nel cuore del Web, vale
a dire nel linguaggio HTML.
Il primo gruppo di limiti
riguarda essenzialmente lincapacità
di questo linguaggio di fornire unadeguata
rappresentazione dellinformazione.
La rappresentazione e la codifica dei dati
sono il fondamento di un sistema di gestione
dellinformazione. LHTML impone
in questo senso pesanti restrizioni. In
primo luogo è un linguaggio di rappresentazione
non modificabile, quindi chiuso; questo
significa che non è concesso al codificatore
di intervenire personalmente laddove lo
ritenga necessario: lautore potrà
solo scegliere entro un numero predefinito
di elementi, capaci di descrivere solo taluni
fenomeni testuali e non avrà la facoltà
di esplicitarne di diversi, anche se la
struttura del testo lo richiederebbe, o
di qualificarli in modo differente.
In secondo luogo HTML è un
linguaggio scarsamente strutturato, dotato
di una sintassi poco potente, incapace di
descrivere fenomeni complessi o informazioni
altamente organizzate; ne consegue che non
può essere utilizzato come sistema di interscambio
per contenuti informazionali particolarmente
elaborati come potrebbe essere un record
di una base di dati. A tutto questo si aggiunge
una spiccata predilezione per marcatori
stilistici più che strutturali, cioè una
codifica improntata alla descrizione dellaspetto
fisico del documento piuttosto che alla
struttura logica del testo.
Un secondo limite dellHTML
è riguarda la definizione dei link ipertestuali.
Questo linguaggio di codifica prevede infatti,
in un costrutto ritenuto ipertestuale, il
solo link unidirezionale: sia lorigine
che la destinazione devono essere cioè esplicitate
nei rispettivi documenti. Un sistema ipertestuale
dovrebbe invece essere corredato da una
serie di collegamenti ipertestuali, corrispondenti
alle molteplici relazioni semantiche che
si potrebbero definire tra gli elementi
di un documento (link bidirezionali, link
che puntano su sezioni strutturali di un
documento di destinazione e non su una singola
stringa, link sequenziali che identificano
una serie di documenti fra loro correlati,
ecc.).
Da questi limiti, che potremmo
definire di natura rappresentazionale, ne
derivano altri di natura operativa, riguardanti
cioè il rapporto autore-sistema e lettore-sistema
e quindi la loro facoltà di interagire con
il documento codificato.
Innanzitutto la possibilità
di un controllo più elastico da effettuarsi
sullaspetto del documento, che risulta
invece alquanto rigido e limitato. Questo
significa che una pagina Web deve essere
progettata per un output dotato di caratteristiche
predefinite, con il rischio quindi di non
ottenere i medesimi risultati, visibili
su un determinato schermo, quando li si
prova a riprodurre su di un altro dispositivo
di visualizzazione o nelloutput si
carta.
Inoltre HTML non consente
di generare viste differenziate sul medesimo
documento, facoltà talora necessaria alle
esigenze di un ipotetico lettore (per esempio
ottenere diverse versioni linguistiche a
partire da un unico documento multilingua).
La limitata consistenza strutturale
ostacola la creazione automatica e dinamica
di indici e sommari. Per lo stesso motivo
sono notevolmente ridotte efficienza, efficacia
e globalità della ricerca di informazioni
sul Web. I motori di ricerca si muovono
secondo un information retrieval full-text,
che non prende in considerazione la struttura
del documento, ma restituisce riferimenti
a documenti interi.
Succede poi sovente di rintracciare
una pagina sul Web che è ovviamente solo
una porzione di una più vasta collezione;
spesso accade di trovare un link ad un indice,
ad una home page, o altri riferimenti utili
a raggruppare un insieme di dati relativi
al medesimo contenuto informativo ed appartenenti
al medesimo autore, o comunque inerenti
lo stesso soggetto dindagine. Accade
che allatto della stampa sia necessario
operare su ogni singolo file HTML. Ci sarebbe
invece un modo migliore per esprimere le
interrelazioni sussistenti tra un set di
pagine, in modo che possano essere processate
come un unico file strutturato. Dovrebbe
essere possibile aggiungere metadata
(informazioni su di uninformazione,
informazione quindi comprensibile dalla
macchina, o meglio, linsieme di dati
che descrivono una o più risorse informative
sotto un certo aspetto) alle pagine Web,
e raggiungere quindi lobiettivo della
notifica delle mutue relazioni sussistenti
tra le singole pagine.
Per concludere, a rendere
ancora più complessa la situazione, sono
intervenuti anche i browers, Netscape e
Microsoft, che hanno iniziato linfelice
pratica dellintroduzione di loro proprie
e individuali extensions
al linguaggio HTML. Questo ha condotto gli
autori di pagine Web a giungere a pesanti
compromessi, al fine di rendere le loro
pagine accessibili allutenza, pur
volendo impiegare le ultime features introdotte
dai browser vendors. La conseguenza
inevitabile è stata la realizzazione di
siti inadeguati. Gli autori devono comprendere
che il Web non è realmente Word Wide se
essi scelgono di utilizzare extensions
non universalmente supportate.
Per superare questi limiti si
è tentata una generalizzazione del supporto
sul Web ad SGML, il linguaggio standard
da cui deriva lo stesso HTML, unapplicazione
particolare dello standard ISO. Lobiettivo
è stato quello di modificare la stessa architettura
del Web per consentire di usare anche altre
applicazioni SGML, oltre a quella universalmente
nota, lHTML. Questo consentirebbe
la distribuzione di documenti in MRF con
formato SGML, garantendo un potere di controllo
dellautore sulla struttura delle informazioni
pubblicate; ogni editore potrebbe utilizzare
il linguaggio di codifica più adeguato alle
sue necessità, a cui poi associare uno o
più fogli di stile, sovrintendendo così
alla presentazione dei documenti pubblicati.
Per superare questi ostacoli
si è deciso quindi di sviluppare un sottinsieme
semplificato di SGML, appositamente pensato
ai fini della creazione di documenti sul
Web. Questo linguaggio è stato denominato
XML, Extensible Markup Language.
6.5 XML
Extensible Markup Language (vai
al tutorial) [21]
La codifica SGML dei testi
elettronici offre una serie di consistenti
vantaggi dal punto di vista del trattamento
informatico.
In primo luogo, potendo un
file SGML essere compilato ricorrendo esclusivamente
a stringhe di caratteri ASCII stampabili,
esso è facilmente portabile su ogni tipo
di piattaforma hardware e software. Inoltre
un testo codificato secondo il formato SGML
può essere impiegato per differenti scopi,
variabili secondo il trattamento computazionale
cui sottoporre la fonte (stampa su carta,
presentazione multimediale, indagine ed
analisi effettuata tramite specifici software,
elaborazione allinterno di una base
di dati) consentendo di evitare il ricorso
a conversioni tra formati spesso incompatibili.
Infine la natura altamente strutturata di
un documento SGML si presta allo sviluppo
di complesse applicazioni (aggiornamento
di database o creazione di strumenti di
information retrieval contestuali).
Ladozione di una tecnologia
come SGML sul Web risolverebbe molti dei
problemi che ne limitano le enormi potenzialità.
Tuttavia SGML è dotato di una complessità
tale da renderne alquanto difficile limplementazione.
Per questa ragione il W3C (Word Wide
Web Consortium), ha optato per la realizzazione
di una versione semplificata dello standard
ISO che ha condotto allo sviluppo dellXML.
XML è dunque un sottinsieme
di SGML semplificato ed ottimizzato specificamente
per applicazioni in ambiente Word Wide Web.
Le caratteristiche
dellXML sono quindi molto simili a
quelle dellSGML (sia per quanto riguarda
i principi di codifica che per quello che
concerne le specifiche della DTD). Si tratta
dunque di un vero metalinguaggio, che permette
di specificare molteplici classi di linguaggi
di marcatura, e non una semplice applicazione
SGML come HTML (che si configura come uno
dei possibili linguaggi di codifica conformi
alla sintassi SGML).
La grande novità che caratterizza
XML, in antitesi a HTML, orientato alla
descrizione della struttura fisica del documento
e della rappresentazione visiva
dello stesso, è la propensione alla descrizione
delle informazioni testuali in un formato
leggibile e comprensibile dallutente,
prescindendo dalle indicazioni relative
a come i dati devono essere visualizzati.
XML è un database-neutral
e un device-neutral format; solo
in un secondo momento i dati codificati
in XML potranno essere indirizzati a differenti
devices, usando lExtensible
Style Sheet Language (XSL). Essendo
XML extensible, rispetto a HTML (che
prevede il solo utilizzo di prefissati set
di elementi) il suo utilizzo eliminerà il
bisogno da parte dei produttori di browser
di aggiungere specifici tag HTML incompatibili
(le extensions di cui si diceva).
Questo è possibile
perchè XML è un metalinguaggio impiegato
per realizzare altri linguaggi specifici,
denominati anche vocabolari.
Ogni vocabulary può essere costruito
mediante il ricorso ad una DTD che fornisce
le regole necessarie alla definizione degli
elementi e della struttura del nuovo linguaggio [22] .
Dunque anche un singolo documento
XML valido, un singolo esemplare di documento
conforme a XML, deve essere associato ad
una DTD che ne specifica la grammatica.
Tuttavia a differenza di SGML, XML consente
la distribuzione anche di documenti privi
di DTD, documenti well-formed, dotati
di una sintassi più rigida rispetto a quella
di un documento SGML (per esempio è sempre
obbligatorio inserire i marcatori di chiusura
negli elementi non vuoti). Per questa ragione
alcune delle più complesse caratteristiche
di SGML, che ne accrescono la complessità
computazionale, sono state eliminate in
fase di realizzazione del nuovo progetto
del Consortium. Sono state dunque
introdotte novità nella sintassi, giungendo
ad una consistente riduzione della complessità
di implementazione di un browser XML e facilitando
di molto lapprendimento del linguaggio.
La semplificazione poi non comporta alcuna
incompatibilità: un documento XML valido
è sempre un documento SGML valido; ne deriva
che il passaggio e quindi la trasformazione
di unapplicazione o di un documento
SGML in uno XML è una procedura quasi sempre
automatica.
In termini opposti alla tendenza
ora dominante nellambito delle recenti
tecnologie Web, XML è orientato alla descrizione
della struttura del testo e non alla rappresentazione
visiva del documento. Un file HTML riflette
il privilegio accordato alla rappresentazione
della struttura del documento ma non ad
un altrettanto adeguata descrizione della
struttura dei dati. Un markup HTML
si limita a fornire informazioni necessarie
a comprendere come gli elementi testuali
sono disposti allinterno della pagina,
ma non fornisce alcuna informazione utile
a comprendere il significato degli elementi
codificati, in quanto ogni singolo tag non
apporta nessuna nozione relativa al blocco
di testo cui è affiancato. Quando un documento
HTML viene processato dal browser, la semantica
viene ignorata, la macchina non comprende
quale tipo di informazione deve essere resa,
il contenuto informazionale del testo non
è oggetto di indagine.
Viceversa una codifica XML presta
attenzione non allaspetto degli elementi
testuali, cioè alla loro distribuzione fisica,
ma al contenuto di ogni singola partizione;
esprime quindi, tramite il ricorso a marcatori
alfabetici, il significato della stringa
di caratteri cui il tag è associato. Diremo
che XML focalizza la codifica sulla semantica
e sulla struttura dei dati, mantenendo altresì
lordinamento gerarchico che sovrintende
lorganizzazione degli elementi della
fonte. Ne deriva un assoluto parallelismo
con la distribuzione dei record allinterno
di una base di dati.
Linsieme delle specifiche
del progetto XML permette dunque di creare,
gestire, manipolare e mantenere applicazioni
ipermediali complesse in rete. XML si configura
dunque come un potente metalinguaggio in
grado di superare quella molteplicità di
limitazioni di una delle più note applicazioni
SGML, HTML. La possibilità di introdurre
tag custom per codificare ogni tipo
di fenomeno testuale o di elemento documentale
fa di XML uno strumento innovativo. Senza
dimenticare che lattenzione accordata
allanalisi della struttura dei dati,
con la possibilità fornita allutente
di comprendere il significato delle componenti
testuali grazie allutilizzo personalizzato
dei marcatori, costituisce una imprescindibile
potenzialità di XML. Lessere XML un
sottinsieme di SGML, compatibile con HTML,
consente spesso di non dover ricorrere allelaborazione
di nuovi tool per la gestione e la
manipolazione dei documenti codificati secondo
le specifiche del W3C; molteplici parser
e conversion tool nati per HTML e
SGML funzionano in modo ottimale anche con
XML.
La progressiva implementazione
delle specifiche del W3C rappresenta un
salto evolutivo nellarchitettura del
web; il fatto che lindustria delle
tecnologie Internet, ed in particolare le
aziende leader del settore, Microsoft e
Netscape, labbiano accolto e supportato
consente di pensare in termini positivi
ad un futuro salto definitivo di XML nel
Word Wide Web.
indietro
|