AIDA Informazioni 3/2001 - Vittorio Ponzani

http://www.aidainformazioni.it

AIDA Informazioni

ISSN 1121-0095, trimestrale
anno 19, numero 3, luglio-settembre 2001

Manifestazioni dopo
ISDL 2001: First DELOS International Summer School on Digital Library Technologies, Pisa, 9-13 luglio 2001
(http://www.iei.pi.cnr.it/DELOS/delos2/SummerSchool/school2001.htm)

Vittorio Ponzani
AIB - Associazione italiana biblioteche, Roma

In questi ultimi anni si vanno sviluppando, soprattutto negli USA e in Europa, molti importanti progetti relativi alla creazione e allo sviluppo delle biblioteche digitali, che coinvolgono diversi ambiti della ricerca tecnico-scientifica: l'information retrieval, l'intelligenza artificiale, le reti, le scienze dell'informazione, la traduzione automatica, la documentazione, la biblioteconomia ecc.

Nell'ambito del V programma quadro della Commissione europea, è nato il progetto DELOS (Network of Excellence on Digital Libraries), diretto da Costantino Thanos dell'Istituto d'elaborazione dell'informazione del CNR e coordinato dall'ERCIM (European Research Consortium for Informatics and Mathematics). Questo progetto si propone di favorire il confronto tra le diverse professionalità che partecipano alla complessa e articolata società dellíinformazione (informatici, documentalisti, bibliotecari, archivisti, operatori museali ed esperti di organizzazione).

In questo contesto è nata l'idea di organizzare una serie di corsi "estivi", dove favorire l'incontro tra professionisti di discipline diverse e stimolare una comune attività di studio e ricerca nei diversi ambiti delle biblioteche digitali. Il primo di questi corsi si è svolto quest'anno a Pisa, dal 9 al 13 luglio, all'interno della suggestiva cornice del trecentesco convento di Santa Croce in Fossabanda e vi hanno partecipato 52 studenti da oltre 16 differenti paesi, portando quindi una quantità di esperienze eterogenee davvero stimolanti.

La struttura del corso, come ha spiegato nellíintroduzione la direttrice della scuola Maristella Agosti (Università di Padova), è stata inevitabilmente condizionata dal fatto che si trattava della prima esperienza di "summer course" nell'ambito del progetto Delos: per questa ragione, i docenti che si sono susseguiti hanno scelto di fare una panoramica dello stato dell'arte nel mondo delle biblioteche digitali e di descriverne le esperienze più avanzate, senza però analizzare in maniera più analitica e approfondita gli aspetti tecnici o gestionali. I corsi che saranno organizzati nei prossimi anni si caratterizzeranno, probabilmente, per un maggiore approfondimento di singole tematiche.

Il corso si è aperto con líintervento di Carl Lagoze (Cornell University), che ha fatto un'ampia panoramica del concetto di digital library, paragonando la sua funzione a quella dei portali che garantiscono l'accesso ai documenti. C'è tuttavia un'importante differenza: se infatti i tradizionali portali (come per esempio Yahoo) si limitano a selezionare dei link ad altre risorse, senza alcuna forma di controllo o responsabilità nei confronti dei documenti linkati, le biblioteche digitali devono svolgere anche un ruolo di gestione, di verifica della qualità e di conservazione di tali documenti, come del resto hanno sempre fatto le biblioteche tradizionali con i documenti cartacei.

Oggi, l'uso del web offre nuove ed enormi potenzialità, trasformando le collezioni documentarie da locali in distribuite nella rete, favorendo líaccesso allíinformazione e alla conoscenza, e diffondendo nuove forme e modelli di editoria, che si caratterizzano per la natura dinamica e complessa dei contenuti. Tuttavia questa complessità, che da una parte costituisce indiscutibilmente un elemento di ricchezza della società dell'informazione, crea però dei problemi per quanto riguarda la gestione e la catalogazione delle risorse in rete.

Attualmente si stanno portando avanti interessanti progetti per lo sviluppo di metadati che permettano lo scambio di informazioni strutturate. Questi metadati sono di varie tipologie, a seconda delle diverse funzioni che svolgono: metadati descrittivi, per líidentificazione, la descrizione e la catalogazione delle risorse elettroniche (per esempio il Dublin Core); metadati amministrativi per la registrazione dei criteri di digitalizzazione (formato, set di caratteri ecc.), per il controllo della versione e per le informazioni relative ai diritti di proprietà intellettuale e allíaccesso legale; metadati relativi alla gestione della conservazione delle risorse elettroniche, che registrano le azioni intraprese per conservare le versioni fisiche e digitali dei documenti (per esempio attraverso la migrazioni dei dati oppure il refreshing); infine metadati tecnici, che documentano sullíharware e sul software utilizzati e sulle caratteristiche della digitalizzazione (formati, rapporti di compressione ecc.).

Si tratta di strumenti concettuali molto importanti, in quanto permettono una gestione automatizzata dei dati e la descizione delle risorse. Gli strumenti tecnici invece favoriscono lo scambio e lo sviluppo di iniziative per la cooperazione tra sistemi diversi e per la federazione delle risorse. Tali strumenti si possono ricondurre alle reti e ai protocolli di comunicazione. L'uso di set di metadati diversi, ovvero di insiemi di descrizioni di oggetti o risorse digitali, da parte di archivi elettronici diversi crea tuttavia gravi problemi di comunicazione dei dati, rendendo difficile l'integrazione tra differenti archivi e quindi l'accesso all'utenza. A questo scopo, che si riconduce al concetto di interoperabilità, è necessaria l'elaborazione di standard che garantiscano la comunicazione e lo scambio tra sistemi diversi, attraverso griglie semantiche.

L'Open Archive Initiative (OAI), è un progetto statunitense nato per affrontare i problemi relativi allíinteroperabilità tra i sistemi e all'accesso alle risorse che si basa sulla raccolta di metadati in repositories. Questi metadati raccolti da data providers, vengono poi ripresi e utilizzati da service providers, che li elaborano fornendo così servizi ad alto valore aggiunto.

Il successivo intervento, di Robert Wilensky, (University of California, Berkley) si è incentrato sui nuovi modelli per la disseminazione e líuso dell'informazione tecnico-scientifica tra i ricercatori. Con l'avvento delle nuove tecnologie è necessario ripensare il modo in cui líinformazione viene utilizzata, tenendo conto delle nuove opportunità (e delle nuove problematiche) offerte dai materiali non testuali (foto, video, multimedia) e dalle nuove fonti informative, più informali di quelle tradizionali ma non per questo meno utili ed efficaci.

L'attuale sistema di disseminazione dell'informazione è caratterizzato dal fatto che le biblioteche tradizionali svolgono la funzione di intermediazione tra la comunità degli utenti e líinformazione stessa. Si tratta di un modello in cui la gestione delle collezioni risulta molto costosa e i vantaggi agli utenti piuttosto circoscritti, né per altro la digitalizzazione sembra essere una soluzione adeguata, dal momento che ha costi molto alti e offre vantaggi non proporzionati. Al contrario, un modello di disseminazione dell'informazione distribuito in rete offre molti vantaggi, dal momento che limita i costi (ogni comunità finanzia i costi della diffusione delle proprie risorse), garantisce una disponibilità immediata grazie alle potenzialità di Internet e infine permette líaccesso a documenti in ogni formato (testi, immagini, suoni, video ecc.).

All'interno di un modello che vede le risorse distribuite nella rete, un problema delicato riguarda la loro gestione più o meno coerente: infatti, capita spesso che cambi di URL, documenti eliminati, spostati o rinominati o comunque una riorganizzazione del file system provocano il fallimento della ricerca e quel fastidioso messaggio "http 404 - file not found". È necessario quindi predisporre dei sistemi di "robust linking", che disegnino i link in modo tale che, anche se il documento viene spostato, almeno una parte del collegamento sia ancora disponibile e permetta di recuperare il documento. Si tratta di creare descrizioni multiple delle risorse (largamente) indipendenti tra loro: la presenza di più descrizioni consente che, se una non corrisponde più al documento, altre ne permettano in ogni caso il recupero. Le proposte di soluzione sono varie, come líuso di URN (Uniform Resource Names) o di PURL (Persistent Uniform Resouce Locator), che identificano le risorse e ne consentono la localizzazione e il recupero.

William Arms (Cornell University) ha posto una particolare attenzione sugli aspetti economici delle biblioteche digitali, che hanno un'importanza fondamentale nelle scelte politiche e culturali legate allo sviluppo della società dellíinformazione. Le biblioteche tradizionali sono molto costose, e i servizi che offrono vanno a vantaggio di un numero piuttosto esiguo di persone. Con l'avvento del web la situazione è radicalmente cambiata: oggi è possibile per chiunque (o quasi) trovare moltissime informazioni su Internet, nella maggior parte dei casi ad accesso libero e organizzate attraverso dei servizi gratuiti. Naturalmente non sempre l'informazione recuperata è di buona qualità e spesso líaccesso allíinformazione non è disponibile gratuitamente, ma la proporzione di informazione di qualità disponibile gratuitamente cresce ogni anno di più.

Nuovi modelli economici permettono l'accesso a molte informazioni in precedenza non disponibili gratuitamente. Questo avviene perché esistono molte realtà, soprattutto gli enti governativi e di ricerca, nelle quali la diffusione dellíinformazione non è legata al profitto, ma all'esigenza di diffondere il più possibile la propria documentazione e i risultati delle proprie ricerche (basti pensare alla mole di informazioni messa a disposizione di tutti dal National Institute of Health oppure agli archivi di preprint messi a disposizione dai fisici).

Uno dei capitoli di spesa più gravosi delle biblioteche tradizionali è quello costituito dalle spese per il personale, ma secondo Arms tale costo può essere ridotto drasticamente attraverso un processo di razionalizzazione delle procedure che le renda in grado di sfruttare le potenzialità offerte dalle nuove tecnologie. È possibile infatti fornire alcuni servizi tradizionalmente svolti dai bibliotecari utilizzando sofisticati hardware e software e ottenendo così un notevole risparmio economico. Infatti, i tradizionali sistemi per il recupero dell'informazione su cataloghi o indici si basano su metadati complessi (regole di catalogazione, vocabolario controllato, authority files), che vengono elaborati da persone molto qualificate e che di conseguenza sono molto costosi (Arms parla di una spesa attorno ai $50 per record). D'altra parte alcuni studi hanno dimostrato che líefficacia di recupero che si ottiene utilizzando i sistemi di indicizzazione automatica sui full text è equivalente a quella dei sistemi di indicizzazione manuale con un vocabolario controllato, mentre non c'è alcuna evidenza che i metadati creati manualmente siano più efficaci. La biblioteca digitale offre quindi la possibilità di razionalizzare le spese, trasferendo le risorse economiche nello sviluppo delle collezioni e nellíorganizzazione dei servizi.

Un aspetto molto importante del complesso mondo delle biblioteche digitali è quello relativo alla conservazione a lungo termine delle risorse elettroniche. Molti importanti progetti per l'archiviazione di documenti digitali vengono realizzati dalle grandi istituzioni pubbliche (si pensi al progetto National Digital Library Program della Library of Congress), che godono di una posizione legale privilegiata e di imponenti finanziamenti pubblici. Tuttavia è necessario realizzare delle alternative che possono coinvolgere tutti gli attori del processo di comunicazione digitale. Sono quindi ipotizzabili due alternative: da una parte un'alleanza tra biblioteche ed editori che, a causa degli alti costi del sistema editoriale, avrebbe come probabile conseguenza la limitazione dellíaccesso alle risorse; dall'altra, lo sviluppo di progetti che, attraverso líattività di recupero automatizzato delle pagine web, possano creare un archivio digitale che sia in grado di conservare la memoria collettiva di una società, analogamente a quanto hanno fatto per secoli le biblioteche.

Arms propone la creazione di un archivio che conservi le risorse web più significative, in modo che sia possibile in futuro consultare pagine di siti non più esistenti e magari fare un confronto fra diverse versioni dello stesso sito in epoche diverse. La proposta è quella di scaricare un sito web a intervalli di tempo regolari e di fare una sorta di istantanea del sito stesso, che viene memorizzata e immagazzinata nellíarchivio. In questo modo è possibile conservare la memoria del sito e del suo sviluppo diacronico.

Si tratta di un progetto molto ambizioso, che pone diverse difficoltà, quale per esempio quella di prendere l'inevitabile decisione (contemporaneamente economica, politica e culturale) di cosa selezionare per líarchiviazione e di cosa condannare allíoblio; in altre parole, è necessario decidere se collezionare tutti i documenti di una certa categoria oppure se collezionare solo i siti selezionati, per la loro qualità, da un esperto. Inoltre, andrà scelto se conservare solo pagine HTML oppure i documenti costituiti da testo e immagini o anche tutte le tipologie di documenti. Nel momento in cui una gran quantità di siti web vengono archiviati, cíè la necessità di una qualche forma di catalogazione, e la scelta si pone tra varie possibilità: la creazione di una lista di siti (come avviene nel progetto dell'Internet Archives), con accesso attraverso URL più la data di salvataggio, oppure líindicizzazione automatica attraverso i motori di ricerca, o infine una vera e propria catalogazione (per esempio con il formato MARC o metadati Dublin Core).

La catalogazione di siti web pone una serie di problemi, quali il fatto che le informazione presenti allíinterno dei siti sono soggette a frequenti cambiamenti, che è spesso difficile selezionarne il titolo (nelle pagine HTML il title è spesso molto povero o inesistente) e infine ci sono spesso problemi di identificazione (URL che cambiano ecc.). È inoltre difficile elaborare delle strategie di catalogazione perché, a differenza del mondo delle biblioteche tradizionali, ancora non si conoscono bene le esigenze informative degli utenti.

La conservazione delle risorse digitali rende anche necessaria un'altra decisione preliminare, se cioè sia necessario conservare i bit, i contenuti oppure le funzionalità. Da questa decisione dipende la scelta delle diverse strategie di conservazione. Tra queste, il refreshing permette di riversare i dati su un nuovo supporto, creando una nuova versione dei file. Attraverso questa procedura si ottiene una copia identica, che garantisce líintegrità dei bit e dei contenuti, ma non la leggibilità del documento, dal momento che i computer e i software più moderni generalmente non sono in grado di leggere protocolli, linguaggi e formati obsoleti. Una possibile alternativa è la migrazione automatica dei file, nella quale i vari protocolli, formati e linguaggi obsoleti vengono convertiti in nuovi standard. Questa procedura è automatizzata e quindi piuttosto economica ma non garantisce che la copia sia identica all'originale, e anzi viene modificata fino a perdere la propria funzionalità. Per evitare questo rischio è possibile introdurre uníattività di editing manuale, per esempio da parte dei bibliotecari, che consenta al documento di conservare la propria funzionalità. Si tratta naturalmente di un'operazione molto costosa e che quindi può essere raccomandata solo per un numero molto limitato di siti che abbiano una particolare importanza.

Un progetto molto importante nellíambito dell'archiviazione dei siti web è quello illustrato da Brewster Kahle, direttore dellíInternet Archives, un'organizzazione pubblica no-profit fondata allo scopo di creare un enorme archivio dove conservare tutte le risorse presenti in rete. Partendo dal presupposto che per secoli le biblioteche hanno avuto il compito di conservare i libri e di garantirne l'accesso ai cittadini, Kahle avverte come oggi non sia cambiato poi molto, dato che uno dei principali problemi delle biblioteche digitali è quello di conservare e preservare le risorse elettroniche. Tuttavia a differenza dei libri, che nel tempo si sono andati consolidando in una forma riconoscibile e accettata, le risorse elettroniche, e in particolare le pagine web, sono caratterizzati da una totale assenza di regole formali e di standard tecnologici, per cui la gestione e la conservazione di questi documenti, oltre alla codificazione di regole per la loro catalogazione, è molto complessa e piena di incognite.

Con un'immagine piuttosto efficace, Kahle afferma che è la seconda volta, nella storia dellíuomo, che esiste líopportunità di raccogliere insieme "tutta" líinformazione esistente (la prima volta è stata al tempo dei Greci, quando con la biblioteca di Alessandria si tentò di raccogliere "tutti i libri"). Oggi le tecnologie digitali offrono líopportunità di archiviare e rendere disponibile tutto ciò che esiste in rete, insieme alle versioni digitalizzate dei libri, delle registrazioni audio e dei programmi radiofonici e televisivi. Questo è uno dei principali scopi della biblioteca digitale, e se le biblioteche tradizionali non si apriranno alle risorse elettroniche, che ormai rappresentano la nostra cultura, e alle problematiche che ad esse sono legate, perderanno sempre di più il loro ruolo culturale nella società (in realtà Kahle non sembra prendere in considerazione il modello di "biblioteca ibrida", che unisce le tradizionali collezioni cartacee ai nuovi documenti digitali).

Nel suo intervento, Carol Peters (IEI-CNR) ha descritto lo stato delle ricerche sullo sviluppo dei sistemi e delle tecnologie per il Multilingual Information Access (MLIA), che consente l'archiviazione, il recupero e l'accesso a informazioni in tutte le lingue, e del Cross Language Information Retrieval (CLIR), che permette di svolgere una ricerca in una sola lingua e poter recuperare documenti in varie lingue. Se infatti fino ad oggi Internet è stato dominato dalla lingua inglese, già da tempo si assiste ad un aumento significativo di documenti in lingue diverse; di conseguenza cresce la richiesta, da parte delle comunità di utenti non anglofone, che siano sviluppati quei sistemi che favoriscono l'accesso all'informazione a prescindere da ogni barriera linguistica e culturale. Tutto questo ha un impatto molto forte sulle nostre attività, in particolare nel campo della formazione, dell'e-commerce e del divertimento, soprattutto dal momento che Internet viene sempre di più utilizzato non solo dal mondo accademico, ma da uníutenza generalizzata.

Molti altri aspetti che caratterizzano la costruzione delle digital libraries sono stati trattati durante il corso: Norbert Fuhr (Università di Dortmund) ha spiegato líapplicazione dellíinformation retrieval al mondo delle biblioteche digitali, sottolineando líimportanza di modelli concettuali adeguati (per esempio gli FRBR dellíIFLA) in grado di descrivere i tipi di oggetti e le relazioni esistenti tra loro.

Andreas Paepke (Stanford University) ha descritto le problematiche relative allíelaborazione di uníinterfaccia che sia sempre più semplice per l'utente ma contemporaneamente dotata di una struttura sempre più forte e funzionale. Ha portato l'esempio della tecnologia dei micorcomputer che, a causa delle ridotte dimensioni, rende necessario uníattenzione particolare alle interfacce. Su questi aspetti Paepke ha invitato i partecipanti ad uníinteressante (e divertente) esercitazione per la creazione di interfacce di computer palmari che fossero contemporaneamente funzionali e "amichevoli" per gi utenti.

Fabrizio Sebastiani (IEI-CNR) ha illustrato la categorizzazione automatica dei testi e le sue applicazioni nellíindicizzazione automatica e nellíorganizzazione documentaria.

Howard Wactlar (Carnegie Mellon University) ha sottolineato l'importanza dei documenti video e i problemi relativi alla loro archiviazione, analisi e recupero attraverso procedure automatizzate, mentre Liz Lyon (UKOLN) ha illustrato le iniziative del Joint Information Systems Committee (JISC) in Gran Bretagna, con particolare attenzione alle più moderne forme di architettura dei sistemi informativi destinati alle biblioteche digitali.

In definitiva, il corso è stato ben organizzato e molto interessante, per la qualità dei docenti invitati a partecipare e per la ricchezza delle problematiche prese in considerazione, che hanno offerto molti spunti interessanti per ulteriori ricerche e approfondimenti. In particolare, una riflessione sulla situazione attuale della biblioteca digitale e sui suoi possibili sviluppi futuri non può prescindere dalla constatazione della assoluta preponderanza degli informatici sui professionisti dell'informazione (documentalisti, bibliotecari, archivisti ecc.) sia fra i docenti che fra i discenti del corso. Durante i frequenti momenti di confronto, anche al di fuori dellíorario delle lezioni, è infatti capitato che i partecipanti descrivessero i progetti ai quali stanno lavorando, più spesso sottolineando le molteplici possibilità offerte dalle tecnologiche informatiche che non manifestando l'importanza, nello sviluppo delle digital libraries, delle capacità professionali dei professionisti dellíinformazione.

È necessario essere consapevoli di questa situazione e riuscire a mettere in evidenza le competenze di un professionista in grado di organizzare le risorse documentarie attraverso l'uso di indici e classificazioni, oppure di affrontare i problemi delle biblioteche (tradizionali come digitali), come ad esempio quelli relativi alla certificazione della qualità delle risorse e al loro controllo bibliografico, la loro conservazione, la qualità dei servizi offerti agli utenti e i problemi relativi al diritto d'autore. Dobbiamo lavorare perché si rafforzi la consapevolezza della necessità di una collaborazione tra le competenze diverse (ma entrambe indispensabili) degli informatici e dei professionisti dellíinformazione, come pure dobbiamo confrontarci con alcune tesi "scomode", che sembrano mettere in discussione la nostra professione, ma che invece possono essere un utile stimolo per una crescita professionale nellíambito delle nuove tecnologie. Mi riferisco per esempio alla tesi proposta da un autorevole ricercatore come William Arms, secondo la quale líindicizzazione automatica sul full text dei documenti è equivalente (se non migliore) di quella fatta manualmente dal bibliotecario/documentalista (per non parlare dei vantaggi dellíindicizzazione automatica in termini di sforzi).

Lasciando da parte le sterili difese corporative, i professionisti dellíinformazione devono oggi affrontare le nuove problematiche poste dallo sviluppo delle biblioteche digitali, mettendo a disposizione le loro conoscenze e competenze e non avendo paura di interrogarsi sulla propria funzione nel mondo digitale.

Mail to Webmaster - Creato 2001-09-13