AIDAinformazioni 1-2/2009 - Maria Cassella

http://www.aidainformazioni.it

AIDAinformazioni

trimestrale - ISSN 1121-0095, ISSN elettronico 1594-2201
anno 27, numero 1-2, gennaio-giugno 2009

Supplemento solo elettronico alla versione analogica

Manifestazioni dopo

ELPUB [Electronic Publishing] 2009: resoconto parziale di tre giornate di studio sull’editoria elettronica a Milano. Milano, 10-12 giugno 2009. Università Statale - con un'integrazione di Claudio Cortese, CILEA, sulla sessione dedicata alle ontologie

Maria Cassella
Università di Torino - maria.cassella@unito.it

Maria Cassella, laureata in Lingue, ha diretto dal 1997 la biblioteca d'ateneo dell'Università "Partenope" di Napoli e quasi fin da sùbito ha collaborato con CIBER. Ha partecipato al gruppo di lavoro di ITALE per la catalogazione UNIMARC del libro antico. All'Università di Torino dal 2005, è oggi coordinatore per le Scienze dell’antichità, filologico-letterarie e storico-artistiche del sistema bibliotecario universitario. Redattrice di "AIDAlampi" e parte del gruppo di lavoro del Wiki italiano sull’Open Access. Ha al suo attivo diverse pubblicazioni, tutte rigorosamente su E-Lis, e attività didattica sulla misurazione e valutazione delle raccolte digitali.

Si è svolta a Milano nei giorni 10-12 giugno ELPUB 2009, la tredicesima conferenza internazionale del ciclo "Electronic Publishing" dedicata appunto ai temi dell'editoria digitale.

Molto denso il programma del convegno, che ha visto alternarsi in due giorni e mezzo le presentazioni di editori e di consulenti di scholarly communication, di amministratori di repository e di bibliotecari sugli argomenti più svariati e attuali connessi con il tema generale dell'editoria elettronica: l'Open Access [OA] e la valutazione della ricerca, gli “overlay journals” e la conservazione del digitale, il Web 3.0, il Web semantico, i progetti di editoria digitale nei Paesi in via di sviluppo.
È praticamente impossibile fornire una cifra di lettura unica per i diversi temi affrontati nel convegno. Ciononostante, proveremo in questa sede a fare alcune riflessioni a partire dalle relazioni che hanno maggiormente colpito chi scrive.

Il giorno 10 si è tenuto il workshop internazionale promosso dal gruppo di lavoro del "Dublin Core Metadata Initiative" e dedicato al fenomeno del social tagging.

L'idea dalla quale è nato il workshop è che il tagging delle risorse effettuato in Rete dagli utenti possa arricchire di contenuti rilevanti la descrizione di un documento e consentire un recupero più efficace dello stesso, grazie all'adozione di un linguaggio naturale non codificato. Non mancano i dubbi e le perplessità. Per chi, come i bibliotecari, lavora da anni con strumenti di indicizzazione controllata, è difficile accettare l'idea che le folksonomie rappresentino una valida alternativa ai linguaggi codificati. In effetti, più che di forme alternative, si tratta per ora di forme complementari di indicizzazione di un documento che si aggiungono a quelle più tradizionali e le completano fornendo valore aggiunto. La potenzialità semantica offerta da queste folsksonomie è comunque notevole e la biblioteconomia sarà obbligata a cercare strade per integrarle nel miglior modo possibile con le forme di indicizzazione semantica più tradizionali (thesauri, tassonomie, classificazioni). Almeno questa è stata la conclusione generale del workshop.

Il giorno 11 la keynote introduttiva al convegno è stata tenuta da Simon Tanner del Kings College London. Tanner ha affrontato il tema complesso e multiforme della conservazione del digitale esortando i bibliotecari ad adottare strategie collaborative concrete per la conservazione del digitale, un tema che non può più essere procrastinato o unicamente demandato a terzi.

Il primo intervento vero e proprio del convegno, quello di Nicola Cavalli, ha introdotto il tema degli “overlay journals” ovvero di quelle riviste che selezionano il contenuto archiviato nei repository aggiungendo a questi ultimi la funzione di certificazione oltre ad altri servizi a valore aggiunto. L'idea degli overlay journals nasce nel 1996 da un'intuizione di Paul Ginsparg, l'ideatore di ArXiv. Quest'ultimo, infatti, in quanto repository, svolge tutte le funzioni di un periodico scientifico (registrazione, disseminazione, conservazione) tranne quella di certificazione, che resta al momento saldamente controllata dagli editori.

L'intervento successivo, di Peter Binfield, director managing di PLoSONE, la nota rivista peer-reviewed del pacchetto PLoS dalle spiccate caratteristiche di interattività, ha presentato l'ennesimo innovativo progetto della Public Library of Science: l'Article level metrics.
L'idea lanciata da Binfield è di aggregare le metriche di valutazione che la Rete mette a disposizione tramite l'utilizzo degli strumenti “sociali” del Web 2.0, blog, wiki, siti di social bookmarking quali Connotea, CiteUlike o Delicious o hub professionali a livello del singolo articolo, aprendo la strada alla combinazione della valutazione qualitativa - svolta a posteriori attraverso la Rete - con la misurazione quantitativa basata sull'analisi citazionale e derivata, nel caso di PLosONE, dagli indici citazionali di SCOPUS e PubMed Central. Si veda un esempio di metrica aggregata a livello dell'articolo.
In un futuro a noi molto vicino, scrive Binfield nel conference paper di ELPUB, «these metrics … will lead to new ways to filter and evaluate individual articles, eventually resulting in new ways for users to find relevant content and new standards to measure the “impact” of research (and hence individuals, departments, institutions, and journals)». Gradualmente l'esperimento di PLoSONE dovrebbe estendersi a tutto il pacchetto PLoS.

Di seguito è stato il turno di due ricercatori dell'Università degli studi di Milano, Alfio Ferrara e Massimo Parodi, che nel loro intervento hanno presentato una della prime riviste Open Access fondate in Italia, nonché la prima rivista italiana ad essere indicizzata in DOAJ: "Doctor Virtualis (DV)".
DV è una rivista di storia del pensiero medievale che utilizza, per gestire la fase editoriale e la pubblicazione degli articoli, il software Open Source del Public Knowledge Project Open Journal System. L'intervento di Ferrara e Parodi si è focalizzato non solo sull'esperienza della Rivista, ma ha anche cercato di mettere in luce come il testo digitale abbia delle peculiarità tali da trasformare completamente le modalità della comunicazione scientifica: dall'ipertestualità di "ridiana" memoria, alle caratteristiche di multimedialità, dalla necessità di utilizzare un numero congruo di metadati per la descrizione e gestione del documento digitale, fino alle nuove moderne applicazioni del web semantico al testo letterario.

La seconda parte della mattinata si sdoppiava in due sessioni: una dedicata al tema delle ontologie [vedi qui sotto l'integrazione di Claudio Cortese] e l'altra ai modelli economici dell'editoria digitale. Chi scrive ha seguito la seconda sessione.

Primo intervento di quest'ultima era quello di John Houghton, economista della Victoria University (Australia), che ha presentato i risultati di uno studio finanziato dal JISC sulle implicazioni dei modelli economici alternativi all'editoria commerciale. Tra questi, i modelli Open Access di tipo author-pays/institution pays e la strada dell'autoarchiviazione nei repository. Quest'ultima, di per sé, non è un modello commerciale ma può combinarsi con funzioni di tipo "commerciale" quali quella della certificazione o il branding grazie agli "overlay journals" (vedi sopra).
Partendo da un'analisi accurata delle caratteristiche dei tre modelli, lo studio del JISC tentava di mettere in luce non solo i costi ma anche i benefici di ciascun modello. Questi ultimi sono da mettere in relazione con l'innalzamento della qualità della ricerca scientifica, con l'impatto sull'industria, sull'azione governativa e, da ultimo ma non per ultimo, sulla vita dei comuni cittadini.
I costi di ciascuno dei tre modelli sono stati nello studio così individuati:

modello tradizionale: il costo per la produzione di un articolo nell'opzione print+online è mediamente di 3,247 sterline; nell'opzione e-only di 2,337 sterline;
modello Open Access: il costo per la pubblicazione di un articolo è pari a 1,524 sterline;
infine, i costi di gestione di un articolo pubblicato in un “overlay journal” ammontano mediamente a 1,260 sterline.

Lo studio del JISC conclude che l'adozione di un modello OA, nella fattispecie quello basato sulla logica author-pays, porterebbe a un risparmio di 80 milioni di sterline all'anno per le università britanniche, mentre l'adozione di un modello di editoria elettronica basato sugli "overlay journals" porterebbe un risparmio quantificabile in 117 milioni di sterline annue, sempre per le università britanniche.

L'intervento successivo, di Paola Dubini (Bocconi) ed Elena Giglia (Università di Torino), ha affrontato il problema della sostenibilità a lungo termine dell'editoria Open Access. Tale sostenibilità si raggiunge in rapporto a una massa critica di lettori e autori disposti a finanziare il modello OA. Per sostenere la loro teoria, le autrici hanno esaminato 12 journals, tra commerciali (Toll Access), ibridi e Open Access, per capire quali fossero i vantaggi concreti del modello di editoria OA per lettori e ricercatori.
I risultati preliminari dello studio indicano che in termini di visibilità e accessibilità l'OA ha un indiscutibile valore aggiunto, ma le riviste commerciali godono di una reputazione ben superiore tra gli accademici che le rende al momento estremamente competitive per il ricercatore che vuole pubblicare.

La relazione di Charles Oppenheim e Fytton Rowland della Loughborough University, ha nuovamente affrontato il tema del peer-review, analizzando quale sia l'atteggiamento dei ricercatori nei confronti delle diverse forme di controllo della qualità a partire da un'indagine che ha coinvolto 26 ricercatori di differenti àmbiti disciplinari. L'indagine in realtà mirava a indagare le percezioni dei ricercatori nei confronti di tematiche di vario tipo quali: i dati primari della ricerca (dataset), la comunicazione scientifica, il Web 2.0 e l'e-learning.

Di dati primari della ricerca trattava anche l'ultima relazione della sessione mattutina del convegno, quella di Panayiota Polydoratou dello University College London (UCL). L'autrice del contributo ha presentato i risultati di uno studio realizzato all'interno del progetto UCL denominato Data Audit Framework.
Scopo dello studio era di indagare le differenti tipologie di dati primari prodotte nell'àmbito della ricerca scientifica al fine di mettere in atto una loro corretta gestione e di consentirne la conservazione a lungo termine. L'indagine ha coinvolto 192 ricercatori di 5 dipartimenti universitari e un centro di ricerca interdipartimentale dell'UCL, tramite la somministrazione di un questionario. Le risposte ottenute sono state 57.
Questi i principali risultati dell'indagine.

Le tipologie più diffuse e trasversali alle varie discipline di dati primari della ricerca sono: dati numerici, dati testuali e basi di dati. Seguono le immagini, i video e gli algoritmi. Ogni ricercatore produce contestualmente almeno due tipi di dati nella medesima ricerca, i dati sono conservati per lo più sul laptop personale e il ricercatore valuta la loro classificazione come essenziale per la ricerca condotta.
Tra i fattori che incidono in modo significativo sull'accesso, uso e conservazione dei dati, i ricercatori citano: i requisiti richiesti dagli enti finanziatori della ricerca, gli accordi in essere tra le istituzioni che partecipano a una ricerca, la natura stessa dei dati primari prodotti (ad esempio se si tratta o meno dati sensibili).
L'attenzione ai dataset sta comunque crescendo in modo esponenziale nel mondo della comunicazione scientifica, in quanto i dati primari aggiungono un valore enorme alla pubblicazione scientifica tradizionale.

Il programma del pomeriggio prevedeva altre due sessioni parallele: una dedicata ai metadati, l'altra invece agli utenti della rete, ai loro comportamenti di ricerca.

In quest'ultima sessione, sono da segnalare l'ennesima relazione del JISC National e-Books Observatory Project su un'indagine ad ampio spettro sull'utilizzo degli e-book nelle università britanniche e il contributo di Peter Linde, Carin Björklund, Jörgen Eriksson e Aina Svensson sul problema dell'autoarchiviazione.
Gli autori di quest'ultimo hanno coinvolto 40 ricercatori di 7 università svedesi in una massiccia attività di autoarchiviazione delle loro pubblicazioni nei rispettivi depositi istituzionali, al fine di raccogliere le osservazioni degli autori sul processo di archiviazione ovvero i punti di forza e quelli di debolezza di un'attività che si configura ancora come problematica per molti ricercatori, soprattutto a causa della cronica mancanza di tempo lamentata dagli accademici.
Tra i risultati dello studio emerge chiaramente che SHERPA/RoMEO non è un progetto completo, in quanto molti editori non dichiarano esplicitamente le loro policy nei confronti dell'autoarchiviazione (non a caso proprio ad ELPUB è stato annunciato il lancio di Dulcinea lo SHERPA/RoMEO spagnolo), che è complesso e lungo per un autore recuperare l'ultima versione dell'articolo da archiviare nel repository (il tempo per completare l'operazione di deposito infatti varia dai 30 minuti alle 5 ore), ma 37 ricercatori su 40 giudicano comunque positiva l'esperienza e pensano che continueranno a depositare i loro lavori in un archivio digitale aperto grazie alla possibilità di poter potenziare l'impatto delle proprie ricerche.

Il giorno 12 è stato dominato dalla keynote finale del convegno che era affidata a Henk Moed del Centre for Science and Technology Studies (CWTS) della Leiden University.

Moed è un esperto internazionale di bibliometria e ha dissertato sulla validità degli indici citazionali (Impact Factor - IF -, EigenFactor e H-Index) e sul vantaggio citazionale degli articoli ad accesso aperto. Moed ha in parte criticato uno studio condotto da Harnad e Brody nel 2004 sull'argomento, ribadendo che se un vantaggio citazionale c'è, è dovuto al fatto che grazie al deposito dei preprint gli articoli entrano prima nel circuito della comunicazione scientifica, vengono letti prima e citati prima.
Moed ha infine concluso il suo intervento parlando delle peculiarità della valutazione della ricerca nelle scienze umane, discipline per le quali gli indicatori bibliometrici tradizionali (IF) risultano inapplicati e in gran parte inapplicabili. Per questo motivo Moed ha lanciato un appello per la costruzione di un database dedicato ai periodici di area umanistica che rispecchi le caratteristiche della comunicazione scientifica tra umanisti.

Tutti i paper e i contributi del convegno sono disponibili ad accesso aperto sul sito di ELPUB 2009.

Claudio Cortese, CILEA
Integrazione sulla sessione dedicata alle ontologie

La sessione dedicata al web semantico e alle ontologie si è articolata in quattro interventi.

Il primo tenuto da Claudio Cortese del CILEA e da Michele Barbera di Net7 ha illustrato i risultati di un progetto cofinanziato da CILEA e Comune di Milano che ha portato alla creazione di una delle prime Semantic Web Digital Library in àmbito italiano, basata su un'ontologia sviluppata a partire dal modello FRBR, in grado di consentire la fruizione online di importanti patrimoni culturali. In particolare, in questa prima fase, il progetto ha preso in considerazione risorse legate all'Ottocento musicale milanese. L'interfaccia di navigazione è stata realizzata mediante il faceted RDF browser Longwell e permette di comporre facilmente interrogazioni anche molto complesse e di reperire senza difficoltà eventuali collegamenti tra i risultati dell’interrogazione e altre informazioni contenute nella base dati.

Il secondo intervento è stato tenuto da Matteo Romanello del Perseus Project e ha illustrato le diverse fasi della creazione di un'ontologia per rappresentare i testi letterari antichi che sopravvivono unicamente in frammenti citati all'interno di testi di altri autori. Una delle caratteristiche più interessanti di questo lavoro è data dal fatto che l'analisi dei concetti-base del dominio, fondamentale per strutturare l'ontologia, è stata effettuata utilizzando tecniche di statistica multivariata a partire da 170 periodici specialistici selezionati dagli esperti della materia.
Alcune caratteristiche che accomunano questo e il progetto presentato nel primo intervento, possono essere considerate “best practises” per quanto concerne lo sviluppo di applicazioni semantic web: il riuso, seppur con adattamenti, di ontologie già esistenti, in modo da garantire l'interoperabilità, e la stretta collaborazione con gli esperti di dominio (collaborazione che caratterizza anche il progetto presentato nell'intervento successivo).

Il terzo intervento, svolto da Carlos Enrique Marcondes, dell'Universidade Federal Fluminense, ha presentato un modello per la presentazione di articoli scientifici (in particolare medici) in un formato che sia anche “machine understandable”. Nel modello proposto ogni articolo, oltre che in formato testuale, viene anche pubblicato come un set di metadati finalizzato a rappresentare i processi cognitivi e le affermazioni sviluppate dagli autori. Tali concetti vengono rappresentati come istanze di un'ontologia, in modo che possano essere processati da agenti software e messi a confronto con il contenuto delle ontologie utilizzate in àmbito medico. Per permettere il raggiungimento di questo obiettivo, l'idea è quella di sviluppare un software che, attraverso un'interfaccia interattiva, aiuti a identificare ed estrarre dagli articoli gli elementi semantici.

La sessione si è conclusa con l'intervento di Mohammad Zubair dell'Università di Norfolk che ha presentato un sistema per migliorare l'accesso a vaste collezioni di immagini, supportando gli utenti nella costruzione collaborativa di una “faceted classification”. Le collezioni, infatti, crescono e le classificazioni devono evolversi per accogliere nuovi contenuti. Una classificazione centralizzata si adatta con maggiore difficoltà a collezioni che si trasformano; di conseguenza, gli autori dell'intervento hanno proposto un sistema per classificare automaticamente le immagini secondo un “facet schema” in grado di evolversi continuamente.