5^ Convegno Nazionale AIDA

Documentazione : professione trasversale

Fermo (AP), 23-25 ottobre 1996


La costruzione delle basi di dati :
l'esperienza dei preprint server per la fisica

  

Susanna Mornati

Dipartimento di Fisica, Universita' degli Studi di Milano
e
CERN, European Laboratory for Particle Physics, Ginevra


Abstract

In un grande centro internazionale di ricerca tutti gli utenti sono anche produttori di informazione. I risultati delle ricerche vengono diffusi alla comunita' scientifica internazionale molto prima della pubblicazione, con modalita' che da uno stadio informale sono passate via via ad essere inquadrate in un ambito piu' o meno "ufficiale". Le basi di dati per le pre-pubblicazioni, ovunque note come "preprints", sono divenute uno strumento essenziale per la documentazione. Questo fenomeno e' legato all'aumento esponenziale della produzione scritta, che rende sempre piu' difficile ai ricercatori la gestione personale e "casalinga" della comunicazione. Gli specialisti dell'informazione trovano un nuovo ruolo nel collaborare, a fianco dei tecnici informatici e dei ricercatori stessi, alla definizione, costituzione e manutenzione delle basi di dati full-text, che sono il risultato ma anche il punto di partenza nelle ricerche sulla fisica delle alte energie. Una comunita' altamente specializzata, potenzialmente autarchica nella ricerca e distribuzione dell'informazione, storicamente autosufficiente, si avvale ora delle nuove tecnologie e degli specialisti dell'informazione (sia bibliotecari sia documentalisti, una distinzione mai precisa in questo ambiente avanzato e non tradizionale) per sopravvivere all'inondazione, organizzare la distribuzione del sapere, recuperare in linea articoli completi. Nell'ambito della fisica delle alte energie e' stata creata la grafica WWW per soddisfare le esigenze di una comunita' di scienziati che non si accontenta di avere un articolo costoso via fax in 3 ore, ma lo vuole gratuito sul proprio computer in 3 minuti. Al punto che Paul Ginsparg, da Los Alamos, provoca gli editori e minaccia la sparizione delle riviste scientifiche....


  1. Introduzione
  2. Tre invenzioni
  3. Le provocazioni di Paul Ginsparg
  4. Due realizzazioni avanzate
  5. Ruolo e competenze degli specialisti dell'informazione
  6. Dal prossimo millennio
  7. Bibliografia


1) Introduzione

Poco piu' di 20.000 fisici delle alte energie, distribuiti in oltre 3.000 universita' ed enti di ricerca in 6 continenti, esplorano l'origine dell'universo e la struttura della materia a partire dai costituenti fondamentali prodotti dal Big Bang. Le condizioni straordinarie di altissima energia, necessarie per la produzione di particelle elementari, possono essere ricreate in un numero limitato di laboratori, una dozzina in tutto il mondo, che offrono ai ricercatori acceleratori e rivelatori di estrema complessita' ad altissima tecnologia e personale specializzato per la conduzione degli esperimenti.

Alla progettazione, costruzione e monitoraggio delle apparecchiature, nonche' al rilevamento e all'analisi dei dati, collaborano team costituiti spesso da centinaia di scienziati provenienti da decine di diverse istituzioni sparse in tutto il mondo. Le loro possibilita' di incontro sono limitate dalle grandi distanze e dai grandi numeri, eppure questi ricercatori hanno la necessita' di lavorare virtualmente fianco a fianco, e di scambiarsi quotidianamente in modalita' remota, ma rapida ed efficiente, idee, informazioni, dati, aggiornamenti e risultati.

E' in questo ambito che si e' sviluppato l'uso massiccio della posta elettronica e la "cultura dei preprint", ovvero l'abitudine di diffondere i risultati delle ricerche in anticipo sui tempi di pubblicazione, facendo circolare note tecniche, draft e articoli fra i colleghi. Non appena la tecnologia ha consentito lo sfruttamento massiccio dei computer e delle reti, la diffusione dei documenti in forma cartacea e' stata sostituita dalla posta elettronica attraverso liste di distribuzione. Molti problemi si sono tuttavia manifestati in questa fase, dalla diversita' dei formati di scrittura alla trasmissione di formule matematiche e di figure.

2) Tre invenzioni

Se confrontate con le consuete necessita' di documentazione del restante mondo accademico e di ricerca, non stupisce che le esigenze dei fisici delle alte energie li abbiano spinti a creare "in casa" e "su misura" soluzioni tecniche che li rendessero protagonisti della propria documentazione e per quanto possibile indipendenti sia dall'editoria scientifica classica, sia dalle biblioteche tradizionali, colpevoli di adeguarsi con eccessiva lentezza alle innovazioni tecnologiche e alle possibilita' aperte dai supporti informatici.

La premessa agli sviluppi piu' recenti e' da ricercare in tre fattori principali: la crescita esponenziale delle capacita' di connessione in rete, la disponibilita' di workstation sempre piu' potenti, l'abbattimento dei costi della memoria di massa. Queste condizioni hanno creato il terreno favorevole per l'invenzione di tre strumenti di lavoro, non a caso creati da tre fisici in diversi laboratori di alte energie, che in pochi anni hanno rivoluzionato le modalita' di accesso all'informazione non solo per i loro creatori, ma per tutta la comunita' scientifica internazionale.

1) Nel 1985 si e' diffuso come standard scientifico il word processor TeX, scritto alla fine degli anni '70 da Donald E. Knuth di Stanford per consentire l'integrazione di formule e figure nei testi.
2) Nel 1991 si e' aperta l'era degli archivi elettronici di pre-pubblicazioni, o preprint server, con la creazione di hep-th@xxx.lanl.gov da parte di Paul Ginsparg di Los Alamos.
3) Nel 1992 Tim Berners-Lee e Robert Cailliau del CERN inventano il World-Wide Web per consentire un accesso grafico ai preprint.

Mentre quest'ultimo e' noto a tutti grazie all'enorme impatto che le sue molteplici applicazioni hanno avuto anche al di fuori dell'ambito specialistico e degli scopi per cui e' nato [Berners-Lee 1996], vale la pena di spendere qualche parola in piu' sui primi due strumenti di produzione e scambio dell'informazione.

Con una definizione oggigiorno di moda potremmo inquadrare il TeX fra i mark-up language. Il suo successo e la sua diffusione negli ultimi anni trovano una giustificazione nella grande flessibilita' del programma, la qualita' dell'output e la facilita' di trasmissione via ftp o e-mail, grazie alla source in formato ASCII. Il contributo di TeX nella comunita' dei fisici va ricercato nella progressiva indipendenza acquisita nei confronti dei formati editoriali commerciali, resa possibile anche dall'estrema coerenza del loro ambiente di comunicazione e dall'alto livello di informatizzazione della loro categoria. Il monopolio di TeX si e' spinto a tal punto da indurre gli editori stessi ad accettarlo come formato privilegiato per l'invio degli articoli da pubblicare, grazie anche alla sua predisposizione per qualsiasi conversione.

La costituzione del primo archivio elettronico di preprint ha un'origine piuttosto estemporanea. Paul Ginsparg, fisico teorico a Los Alamos, racconta [Lewin 1996] come ha speso "qualche pomeriggio" nell'agosto del 1991 a scrivere un programmino che risolvesse il problema di un collega indiano. Questi era preoccupato del fatto che il computer di Bombay sul quale aveva un account, avendo risorse di memoria limitate, rifiutasse i preprint che riceveva via e-mail quando la quantita' superava la quota di memoria concessa. L'idea di Ginsparg era molto semplice: i fisici avrebbero inviato i loro preprint ad una sola macchina anziche' alle liste di colleghi. La macchina avrebbe poi estratto automaticamente solo i dati bibliografici e gli abstract per la distribuzione, e inviato il full-text solo in risposta ad un comando di reply [Ginsparg 1994].
Cosi' e' nato hep-th@xxx.lanl.gov, ancora oggi ospitato da una semplice workstation che si trova sotto la scrivania di Ginsparg. L'archivio e' capostipite di una serie di preprint server usati oggi da oltre 25.000 scienziati di tutto il mondo, che compiono oltre 700.000 transazioni al mese regolate in modalita' del tutto automatica.

3) Le provocazioni di Paul Ginsparg

Viene il momento di chiedersi quale possa essere il ruolo del documentalista in questo processo di vero e proprio affrancamento dei produttori dell'informazione dagli intermediari tradizionali. Esemplifico con la posizione di Paul Ginsparg per due motivi: da un lato ha avuto una risonanza strepitosa, almeno nell'ambiente scientifico, dall'altro rappresenta un atteggiamento piuttosto diffuso fra i fisici e i colleghi delle discipline piu' affini per modalita' di ricerca.

Accenno qui solamente alla polemica di Ginsparg contro gli editori delle riviste scientifiche, e al dibattito [Stix 1995, Taubes 1993 e 1996, Glanz 1996, Wills 1996, per citarne solo alcuni] che ne e' scaturito, rinfocolato di recente in seguito alla conferenza di Parigi di febbraio sull'editoria elettronica. L'intervento di Ginsparg [Ginsparg 1996], dal significativo titolo "Winners and losers in the global research village", e' molto scettico nei confronti del ruolo attuale e futuro degli editori scientifici, e spiega perche' le funzioni tradizionali delle riviste accreditate (la diffusione dei risultati delle ricerche, il filtro qualitativo del processo di peer-review e la validazione dell'informazione per scopi di carriera) sono state superate dagli archivi elettronici di preprint almeno nel campo della fisica delle alte energie.
Ginsparg se la prende inoltre con l'esosita' degli editori, a cui la comunita' scientifica deve far fronte con grandi spese per il finanziamento delle biblioteche: "If we the researchers are not writing with the expectation of making money directly from our efforts, then there is no earthly reason why anyone else should make money in the process" [Ginsparg 1996].

Ma il punto di maggior interesse per noi e' quello in cui Ginsparg lancia una provocazione diretta alla nostra categoria professionale: "The problems of indexing and categorization of information in principle lie within the purview of the library [...] but to date theirs has been a curiously low profile in the electronic realm, while various amateur brute-force indexing schemes are running dangerously amok. It would be remarkable if centuries of ostensibly relevant experience found little applicability in the network context" [Ginsparg 1996].
L'accusa non e' del tutto infondata: sono in molti oggi a sostenere che i search engine automatici su WWW possono sostituire il lavoro di catalogazione puntuale delle risorse informative. E non basta trincerarsi dietro generici bastioni di difesa che invocano la qualita', in un contesto in cui la quantita' sembra essere l'unico paramentro significativo per i nuovi adepti della religione elettronica.

Sono infatti considerevoli anche le pressioni che la nostra categoria subisce da parte di un'utenza ormai convinta di trovare ogni informazione necessaria su Internet, e che ha aspettative sproporzionate nei confronti del mezzo elettronico. Michael Nelson e i suoi colleghi della NASA [Nelson 1995] registrano la frustrazione dell'utente, che cresce anziche' diminuire davanti agli sforzi di approntare nuovi strumenti informativi. Gli autori del Technical Report Server della NASA riportano come a partire dal momento in cui un tale archivio full-text viene messo a disposizione dei ricercatori, questi ultimi si aspettano di trovarvi tutta la letteratura a loro necessaria, indipendentemente dalla data e dalle modalita' di produzione. Occorre dunque uno sforzo maggiore perche' questi nuovi strumenti soddisfino veramente le aspettative di un'utenza che ne diverra' sempre piu' dipendente, e perche' ne siano migliorati modalita' e tempi di accesso, fattori cruciali per il successo dell'informazione online nel prossimo futuro [Nelson 1996].

4) Due realizzazioni avanzate

Passiamo in concreto a vedere come gli specialisti dell'informazione hanno trovato un ruolo significativo, anche anticipando i bisogni dell'utenza, in due realta' di ricerca avanzate quali i centri di documentazione di SLAC e del CERN. In entrambi i laboratori e' in funzione un preprint server gestito dalla biblioteca con il computer support, in contrapposizione con il server "fai da te" di Los Alamos.

Negli anni '70 a SLAC (Stanford Linear Accelerator) un manipolo di bibliotecari dotati di "unusual vision" crea SPIRES (Stanford Public Information Retrieval System), un database bibliografico concepito per le esigenze di un'utenza altamente specializzata, e dunque ricco di informazioni non standard ma essenziali per la comunita' delle alte energie [Kreitz 1996]. I record descrivono documenti che prima dell'era del full-text online si potevano ancora definire come letteratura grigia, preprint ricevuti su carta, catalogati e conservati nella biblioteca. Oltre a campi tradizionali quali autore e titolo, i record contengono il nome dell'esperimento, della collaborazione, l'affiliazione degli autori, il numero di report originale, le referenze di pubblicazione, le citazioni, un codice per le conferenze e cosi' via, oltre ad un tesauro specializzato per i soggetti assegnati in collaborazione con fisici bibliotecari di DESY, in Germania. In trent'anni il database si e' evoluto dalla produzione e distribuzione su carta di una lista di nuove accessioni, ad un archivio online su WWW con interfaccia grafica e link ipertestuali al full-text dei preprint, oltre che ad abstract, figure, referenze e citazioni, incrociate e scorribili cronologicamente nei due sensi. Il database non rappresenta piu' il catalogo del posseduto dalla biblioteca, ma registra l'esistente "virtuale", ovvero tutta la documentazione disponibile anche in formato esclusivamente elettronico su qualunque sito.

Al CERN e' operativo ALICE (Aleph Library Information at CERN), un database con le stesse finalita' di SPIRES, anche se piu' "Europe oriented". Nel 1994 e' stato affiancato da un preprint server che offre la possibilita' di visualizzare e stampare full-text anche a partire da formati diversi da TeX, predisponendo conversioni in Tiff, PostScript, Gif e PDF. Vengono inoltre passati a scanner i preprint che continuano a pervenire su carta. Nel luglio di quest'anno e' stata realizzata un'interfaccia grafica comune su WWW da cui e' possibile accedere al full-text a partire da un link ipertestuale con il record bibliografico. Da settembre e' inoltre consultabile HEPDOC, un sistema di ricerca multipla contemporanea su tre database differenti (ALICE, SPIRES e KISS, dal laboratorio di KEK in Giappone), che sfrutta la tecnologia WWW per interfacciare sistemi compatibili.

5) Ruolo e competenze degli specialisti dell'informazione

L'esperienza di Los Alamos, dove la mediazione degli specialisti dell'informazione e' praticamente inesistente, si contrappone a quella di SLAC e del CERN, dove i bibliotecari hanno lavorato fianco a fianco con i fisici per costituire strumenti di stoccaggio, retrieval e diffusione della loro produzione scientifica. I risultati sono visibili, e il ruolo dei diversi strumenti si va differenziando. Mentre il preprint server di Los Alamos, per la sua immediatezza, e' insuperato nella distribuzione puntuale della letteratura dell'ultima ora, i database di SLAC e CERN sono superiori per l'alto valore aggiunto dei record, le funzioni piu' estese di retrieval, la soluzione dei problemi di conversione dal TeX e la molteplicita' di formati di visualizzazione e stampa disponibili. Anche riguardo agli ultimi due punti infatti, il servizio di intermediazione offerto dai bibliotecari e dal computer support e' decisamente superiore. La conversione automatica (ancora una volta ideata da un fisico, Paul Mende della Brown University) prevista da Los Alamos non funziona al 100%, dove i problemi di formattazione del TeX e l'aggiunta di figure, spesso inviate separatamente e in formati diversi, vanno trattati caso per caso.

La gestione dell'informazione da parte di specialisti apre il campo a nuovi sviluppi, quali la creazione di nuove risorse informative a partire da estrazioni operate sui database disponibili su Internet, liste di letteratura scientifica rilevante legate alle pagine WWW degli esperimenti e delle universita' coinvolte, accordi con gli editori per link con il full-text delle riviste elettroniche quando il preprint viene pubblicato, link con note tecniche, draft e dati sperimentali, anche in formati multimediali, degli esperimenti, set di ricerca predefiniti messi a disposizione in formato ipertestuale [Kreitz 1996].

Conoscere le modalita' di catalogazione e retrieval dell'informazione dai database rilevanti per una determinata disciplina non basta piu' a uno specialista dell'informazione, che deve sviluppare nuove competenze per riconquistare un ruolo centrale nella gestione dell'informazione. Pensiamo innanzitutto alla conoscenza diretta delle modalita' di produzione della documentazione e delle esigenze di distribuzione da parte dell'utenza, cruciale per progettare strumenti adatti alle situazioni specifiche e predisporre servizi adeguati [Kreitz 1996].

Occorre inoltre una formazione specifica e possibilmente non autodidatta sugli elementi di scienze dell'informazione, quali caratteristiche e funzionamento dei sistemi operativi e nozioni di programmazione, sufficienti a consentire un dialogo costruttivo con il computer support, a discriminare i prodotti informativi che appaiono a ritmo incalzante sul mercato, ad esplorare le nuove tecnologie, ad operare scelte corrette per essere competitivi nell'offerta di servizi all'utenza ed anticiparne le richieste [James-Catalano 1996, Mendelsohn 1996, Schneidermann 1996].

Essenziale e' divenuta recentemente la conoscenza delle tecniche di publishing su WWW, che non consistono semplicemente in nozioni di HTML e degli editor che lo producono, ma delle piu' ampie problematiche di gestione dei server, del contenuto semantico dell'informazione, dell'organizzazione e presentazione dei servizi, dell'interazione con altri centri di produzione dell'informazione all'interno e all'esterno dell'istituzione in cui si opera [Rousseau 1995, Fernandez Vega 1996].

Sono inoltre necessarie nozioni di hardware e software sufficienti a fornire un supporto concreto all'utenza che lavora tipicamente su una varieta' di piattaforme incompatibili, ma condivide le stesse esigenze di visualizzazione, manipolazione e stampa dell'informazione online nei suoi differenti formati di output. La fornitura del know-how e dei mezzi tecnici di accesso effettivo alla documentazione rilevante diventa sempre piu' dipendente dalla tecnologia e sempre meno dalle collezioni fisicamente conservate nelle biblioteche [Winkel Schwarz 1996].

Infine, ma per questo non posso citare alcuna letteratura ne' elencare competenze ne' possibilita' di formazione, occorre una "visione", la capacita' di interpretare e anticipare i bisogni informativi di un'utenza sempre piu' specializzata ed esigente.

6) Dal prossimo millennio

Forse l'invenzione del World-Wide Web avra' sulla nostra cultura un impatto equivalente a quella della stampa e della televisione, e non solo nell'ambito scientifico, ma nel quotidiano di ciascuno rivoluzionera' il modo di informarsi e di conseguenza il modo stesso di vivere.

Al di la' dell'approccio visionario, o forse meglio al di qua, esiste una realta' di lavoro degli specialisti dell'informazione che ha gia' subito cambiamenti drammatici negli ultimi anni. Gli scienziati premono per un'informazione piu' immediata, completa, personalizzata, e di fronte alla mancanza di risposte concrete da parte degli interlocutori tradizionali, creano i propri strumenti di lavoro quotidiano.

Tuttavia coloro che hanno lavorato con la letteratura grigia (usiamo questo termine per l'ultima volta, prima che diventi definitivamente obsoleto) hanno imparato da tempo ad affrontare le sfide all'establishment dell'informazione organizzata, degli editori e delle biblioteche. Hanno lavorato con gli autori della produzione scientifica e ne hanno condiviso l'approccio intellettuale, la flessibilita' e l'entusiasmo per il nuovo e l'alternativo, la diffidenza per il ridondante, la dimestichezza con l'informatica e le possibilita' offerte dal mezzo elettronico.

I panorami informativi emergenti presentano una sfida ancora piu' audace: solo la capacita' di anticipare e gestire i cambiamenti, da protagonisti attivi, potra' garantirci un ruolo nella societa' a partire dal prossimo millennio.

7) Bibliografia

Berners-Lee, T., 1996, "The Web Maestro", Technology Review, 99(5), 32 e http://web.mit.edu/afs/athena/org/t/techreview/www/articles/july96/bernerslee.html

Fernandez Vega, S. e J.-Y. Le Meur, 1996, "Collecting and serving information within a large organization", CERN-AS/96-01 e http://preprints.cern.ch/

Ginsparg, P., 1994, "First steps toward electronic research communication", Los Alamos Science, 22, 156 e Computers in Physics, 8(4), 390. Aggiornato nel 1995 in http://xxx.lanl.gov/blurb/

Ginsparg, P., 1996, "Winners and losers in the global research village", presentato alla Joint ICSU/UNESCO Expert Conference on Electronic Publishing in Science, Parigi, 19-23 febbraio 1996, http://xxx.lanl.gov/blurb/

Glanz, J., 1996, "E-journal : delayed, but still a force", Science, 273, 9 Aug, 734

James-Catalano, C.N., 1996, "Look to the librarians", dalla rubrica "Cyberlibrarian", Internet World, Aug, 28

Kreitz, P.A. et al., 1996, "The virtual library in action : collaborative international control of High-Energy Physics pre-prints", SLAC-PUB-7110, presentato alla Second International Conference on Grey Literature, GL '95, "Grey exploitations in the 21st century", Washington, DC, 2-3 novembre 1995, http://preprints.cern.ch/

Lewin, D.I., 1996, "An interview with Paul Ginsparg : how a physicist helped to launch a revolution", Computers in Physics, 10(1), 6

Mendelsohn, S., 1996, "Is convergence inevitable?", Information World Review, Jul/Aug, 26

Nelson, M.L. et al., 1995, "The NASA Technical Report Server", Internet Research, 5(2), 25

Nelson, M.L. e M.-H. Maa, 1996, "Optimizing the NASA Technical Report Server", Internet Research, 6(1), 64

Rousseau, B., 1995, "Publishing on the Web", CERN-ECP/95-022 e http://preprints.cern.ch/

Schneidermann, R.A., 1996, "Why librarians should rule the net", E-Node, 1(4), enodelist@garnet.berkeley.edu

Stix, G., 1995, "Editoria scientifica in rete", Le Scienze, 318, Feb, 82

Taubes, G., 1993, "Publication by electronic mail takes physics by storm", Science, 259, 26 Feb, 1246

Taubes, G., 1996, "Science journals go wired" e "Electronic preprints point the way to author empowerment", Science, 271, 9 Feb, 764 e 767

Wills, M. e G. Wills, 1996, "The ins and outs of electronic publishing", Internet Research, 6(1), 10

Winkel Schwarz, A., 1996, "From research library to information center", presentato alla Baltic States Policy Conference, Tallinn, 25-26 aprile 1996.


Il presente contributo e' disponibile su WWW: http://www.aidaweb.it/5convegno96/mornati96.html