Peer review, un algoritmo ti salverà

Ferdinando Patat, responsabile dell’Ufficio dei programmi di osservazione dell’Eso. Crediti: Bruno Oliveri e Lorenzo Gammarota/Flickr Cc-By-Sa

La sfida competitiva delle idee in ambito scientifico è molto importante: permette di far progredire la ricerca e spinge i ricercatori ad alzare il livello dei propri obiettivi. Nell’antichità, spesso lo scienziato aveva un mecenate pronto a finanziare il suo lavoro; oggi, nella scienza moderna, per l’assegnazione delle risorse finanziarie occorre affidarsi alla revisione tra pari delle proposte. Questo processo sembra però introdurre alcuni problemi. Un team di scienziati guidato da Wolfgang Kerzendorf, astronomo alla Michigan State University, ha studiato e analizzato un nuovo processo di valutazione delle proposte di progetti di ricerca altrettanto efficace, se non di più – scrivono gli autori – del tradizionale metodo di peer review. Fra gli autori dello studio c’è anche Ferdinando Patat: friulano originario di Artegna, in provincia di Udine, con laurea e dottorato a Padova, dal 2011 Patat dirige l’ufficio dei programmi di osservazione dello European Southern Observatory (Eso), a Garching, in Germania. Un’esperienza che gli ha permesso di interagire con qualcosa come 18mila proposte e oltre mezzo migliaio di revisori. Media Inaf lo ha intervistato.

Partiamo dal processo classico: cos’è la peer review?

«La peer review – o revisione tra pari – è il procedimento utilizzato nella selezione di progetti o pubblicazioni, di cui uno o più specialisti valutano la conformità al metodo scientifico, evidenziandone possibili problemi o errori. In poche parole, è un meccanismo di auto-controllo volto a garantire la qualità dei risultati pubblicati (nel caso di articoli) o l’idoneità a ottenere finanziamenti o risorse (nel caso dei progetti). Il nome deriva dal fatto che la revisione viene operata da ricercatori che si trovano in una situazione simile a quella degli autori o dei richiedenti; un confronto tra pari, appunto. Anche se ha le sue limitazioni e le critiche – anche feroci – non sono mancate, di fatto è il metodo principale con cui si selezionano le pubblicazioni e si assegnano le risorse in campo scientifico. Nel concetto classico di peer review, la valutazione viene operata da uno o più revisori nominati dall’editore della rivista (nel caso delle pubblicazioni) o dall’ente che gestisce le risorse (finanziamenti a progetti o tempo di utilizzo di apparati scientifici). Normalmente i revisori vengo selezionati in base al loro profilo professionale – esperienza, pubblicazioni, risultati, attività nel campo specifico, competenze – con procedimenti che variano a seconda dei casi».

Voi, invece, proponete un processo di distributed peer review (Dpr), e in particolare di una “Dpr enhanced” – migliorata, dunque – grazie al ricorso a un algoritmo: come funziona?

«Negli ultimi decenni il numero di pubblicazioni e di progetti è aumentato significativamente, tanto da condurci a una situazione in cui è sempre più difficile trovare dei revisori competenti e disponibili. Questo stato delle cose ha portato a un deterioramento della qualità delle revisioni, con un possibile impatto negativo sull’utilizzo delle risorse e il prodotto scientifico finale. E questo non tanto per mancanza di competenze, ma per la superficialità con cui le revisioni vengono condotte – superficialità essenzialmente dettata dalla mancanza di tempo. In un tentativo di mitigare tale problema, uno studio del 2009 aveva già proposto una variante alla peer review classica. L’idea è semplice: quando sottoponi una richiesta, accetti di fare da revisore per un certo numero X di simili richieste sottomesse dai tuoi pari. Se sottoponi due richieste, dovrai fare la revisione di 2X richieste, e via dicendo. Se non consegni il tuo giudizio entro la scadenza fissata, la tua domanda viene automaticamente rigettata».

Crediti: Kelly Lacy/Pexels

Dunque si viene penalizzati se non si dà il proprio contributo alle revisioni?

«Non solo: se penalizzi sistematicamente le proposte che ti sono state assegnate, l’idea originale prevede che la tua proposta venga sfavorita dall’algoritmo che combina le varie valutazioni. Questa procedura è chiamata peer review distribuita, perché il carico viene ripartito in maniera più ampia di quanto non faccia la peer review classica, in cui il ruolo del giudizio viene affidato a un’entità che, anche se composta da pari, costituisce pur sempre una sorta di élite. In altre parole, la Dpr accresce il livello di parità, perché i “concorrenti” fanno anche parte della giuria. Uno degli aspetti della peer review – sia classica che distribuita – è la combinazione fra il contenuto della proposta e l’esperienza specifica del revisore. In genere, sia le proposte che i revisori vengono “classificati” entro certe categorie, scelte dalla stessa lista sia da chi sottopone la domanda che da chi la esamina (quando accetta di servire come referee). Questa auto-classificazione è necessariamente soggettiva e spesso porta ad abbinamenti non ottimali. Il nostro algoritmo effettua l’accoppiamento classificando le domande e i referee in base all’analisi testuale delle prime, da un lato, e delle pubblicazioni dei secondi dall’altro. Ciò incrementa la bontà degli abbinamenti e migliora la qualità delle revisioni e dei commenti che vengono forniti al richiedente».

In quali occasioni proponete di usarlo, il vostro metodo?

«Anche se è stato sviluppato per effettuare la revisione delle domande per il tempo ai telescopi dello European Southern Observatory (Eso), l’approccio è molto generale. L’algoritmo è basato sull’apprendimento automatico e l’elaborazione del linguaggio naturale e dunque, in linea di principio, può essere applicato a qualunque processo di selezione in cui, sia i progetti che i revisori, si possano categorizzare tramite l’analisi di un testo scritto. Detto in maniera semplice, per ciascuna delle domande e dei revisori il metodo determina i cosiddetti vettori di conoscenza. Per ciascuna delle domande, poi, compila una classifica della qualità degli abbinamenti, dal migliore (vettori paralleli) al peggiore (vettori perpendicolari). L’applicazione al caso delle riviste scientifiche è la più naturale».

Perché?

«Attualmente l’abbinamento viene fatto incrociando liste di “parole chiave” (specificate dall’autore nel manoscritto) con una base di dati (mantenuta dall’editore) che contiene i nominativi dei potenziali revisori. Tramite il nostro approccio il gioco diventa automatico e, virtualmente, può stilare una classifica dei migliori revisori estraendoli dall’intera popolazione di autori del settore. È solo una questione di quantità di memoria e velocità di calcolo, cose che al giorno d’oggi non scarseggiano. È importante sottolineare che l’algoritmo calcola una lista di possibili revisori, e ciò permette di operare ulteriori scelte, che spesso si rendono necessarie per soddisfare altre condizioni, come la soluzione dei conflitti (istituzionali e/o scientifici), la disponibilità del singolo revisore nel dato momento e il bisogno di disporre di più giudizi indipendenti».

Proviamo a ripercorrere passo passo il processo da voi proposto?

«Il tutto inizia con la sottomissione della domanda. Nel farlo, l’investigatore principale firma un accordo in base al quale acconsente che la sua proposta venga rivista da N ricercatori che concorrono per lo stesso ciclo di domande. Al tempo stesso, accetta di servire come revisore per N domande sottoposte da suoi pari, e firma un accordo di non-divulgazione in cui si impegna a non rivelare il contenuto delle domande cui avrà accesso. Al momento della chiusura del bando per la sottomissione entra in azione l’algoritmo. Questo analizza tutte le pubblicazioni di tutti gli investigatori principali, costruendo per ciascuno di essi il vettore di conoscenza. Dopo di che compie la stessa operazione sul testo delle domande e procede con lo stilare la classifica degli abbinamenti. Infine, ottimizza la distribuzione in modo che ogni proposta venga assegnata a N revisori e che a ogni revisore vengano assegnate N proposte. Una volta fatti gli abbinamenti, ai revisori vengono date tre settimane di tempo per completare lo scrutinio. Questo consiste nella lettura delle domande, il voto e la compilazione di un commento atto a fornire al richiedente le indicazioni necessarie per migliorare il contenuto della proposta».

Sempre che ci siano revisori a sufficienza…

«Uno dei grandi vantaggi della peer review distribuita rispetto a quella classica è proprio la disponibilità di un grande numero di revisori. Nel caso di Eso, il comitato per l’allocazione del tempo ai telescopi è composto da 78 scienziati, mentre il numero di investigatori principali in ogni ciclo è dieci volte più grande. È quindi molto più semplice trovare dei profili “paralleli”. Inoltre, visti i numeri, è possibile aumentare il numero di revisori per proposta: fatto questo fondamentale per ridurre la soggettività che è intrinseca al concetto di peer review stesso».

Quale tipo di feedback riceveranno i candidati?

«Quando la fase di revisione è conclusa, i voti dati da ciascun revisore vengono combinati e viene compilata la classifica finale, che poi verrà usata nell’allocazione del tempo vera a propria. A differenza della peer review classica, in cui per ciascuna proposta viene formulato un unico commento “di consenso”, nella Dpr i commenti dei singoli revisori vengono mantenuti separati, e passati direttamente all’investigatore principale senza alcun intervento di supervisione o di editing. Questo fornisce al richiedente un quadro più completo delle opinioni espresse sulla sua proposta dai singoli, permettendo una migliore comprensione del livello di consenso fra i revisori, che non si sono consultati fra di loro in nessuna delle fasi del processo».

Crediti: Markus Spiske/Pexels

Nell’articolo parlate di ‘Deep Thought’. Di che si tratta?

«Con Deep Thought abbiamo indicato il procedimento di apprendimento automatico alla base dell’abbinamento fra le domande e i referee. Lo abbiamo chiamato così perché, in effetti, il marchingegno resta immerso per un po’ in profonda meditazione prima di produrre la sua soluzione. La ragione per cui è stato sviluppato è che, una volta fissati i criteri, consente una distribuzione oggettiva e ripetibile delle proposte, ed è quindi adatto a gestire il processo in maniera automatica. Questo si rende necessario quando il numero di proposte è molto alto o quando il processo va ripetuto con una certa frequenza, cosa praticamente ingestibile quando controllata manualmente. L’Eso sta considerando un canale di sottomissione e revisione veloce, e in tal caso un approccio come quello di Deep Thought è assolutamente necessario».

Non c’è qualche punto debole, nel vostro approccio? Penso, per esempio, alla mancanza di un incontro faccia a faccia e lo scambio di opinioni fra colleghi valutatori.

«L’eliminazione dell’incontro faccia a faccia è probabilmente il punto più debole della Dpr, ma non per il motivo che uno potrebbe inizialmente immaginare. Infatti, esistono diversi studi che indicano che gli incontri sono possibile sorgente di effetti sistematici. Se è vero che lo scambio di opinioni può migliorare la comprensione generale di una certa proposta, e quindi condurre ad una valutazione meglio informata, è altrettanto vero che singole opinioni, specie se espresse in modo molto assertivo da personalità forti, possono influenzare l’intero comitato. Ciò ha l’effetto di deviare l’opinione generale in una direzione che non è necessariamente parallela a quella che porta più vicino ad un’ipotetica verità. Il modo in cui viene esercitata questa influenza è complesso, trattandosi di una combinazione di competenze specifiche e di aspetti della personalità dei singoli revisori. In breve, resta da dimostrare che l’incontro faccia a faccia porti ad una migliore selezione delle proposte intrinsecamente più meritevoli. L’aspetto negativo dell’assenza di interazioni faccia a faccia è un altro».

Quale?

«La valenza dell’incontro di persona risiede nella funzione sociale ed educativa dell’incontro stesso, e ciò è particolarmente importante per i revisori più giovani e/o provenienti da comunità scientifiche più svantaggiate. L’incontro con colleghi più esperti e provenienti da campi diversi, l’esposizione a un ambiente internazionale e il confronto diretto sono certamente degli aspetti importanti nella formazione di un ricercatore, aspetti di cui poi beneficiano le singole comunità scientifiche quando i partecipanti riportano le loro esperienze nel proprio ambiente di lavoro».

Crediti: Christina Morillo/Pexels

Nel caso reale del vostro esperimento, la proposta viene diffusa a un numero elevato di persone: 167 contro le 78 di un normale processo di peer review. Questo non rappresenta un rischio, per la riservatezza?

«Se la preoccupazione è quella che qualcuno dei revisori possa plagiare o diffondere il contenuto delle proposte cui ha accesso, è chiaro che la probabilità che ciò accada aumenta con il numero di persone coinvolte nel processo. Tuttavia, la probabilità che un dato revisore venga in contatto con una proposta che si avvicini agli interessi suoi (o del suo gruppo), e che quindi possa essere oggetto di plagio, aumenta con il numero di proposte cui ha accesso. Per questo motivo, quando si confrontano i due metodi dal punto di vista della confidenzialità, si deve tener in mente una differenza fondamentale fra i due: è vero che nella peer review classica il numero di revisori è molto minore che nella Dpr, ma è altrettanto vero che nel primo caso ciascuno dei revisori ha accesso a un numero molto maggiore di proposte. Nel nostro esperimento, ciascuno dei 167 revisori Dpr ha letto solo 8 proposte, mentre nella peer review classica dell’Eso i 78 revisori hanno accesso a circa 70 proposte ciascuno. Quindi, nella Dpr un numero circa doppio di revisori ha letto un numero circa nove volte più piccolo di proposte. A conti fatti, ogni semestre il procedimento classico ha un potenziale rischio di fuga di informazioni circa quattro volte maggiore che nel nostro esperimento. Possiamo fare questa stima anche per il caso in cui si dovesse passare all’approccio Dpr per tutte le proposte dell’Eso, che coinvolgono circa 750 investigatori principali per un totale di circa 900 proposte ogni semestre. Nel caso classico, 78 persone leggono 70 proposte ciascuna (ogni proposta viene esaminata da 6 revisori), mentre nell’approccio Dpr 750 persone leggerebbero 8 proposte a testa, con una diffusione di informazione praticamente equivalente».

È ottimista sul fatto che la peer review distribuita possa prendere sempre più piede?

«Uno dei punti che mi ha maggiormente colpito durante questo studio è la tendenza di noi scienziati a restare ancorati a procedure e abitudini consolidate. Cosa che, a pensarci bene, stride in modo assordante con l’ideale di sperimentazione e curiosità che dovrebbe muovere ogni nostra azione, almeno in ambito professionale. Mi riferisco all’atteggiamento reazionario che abbiamo spesso riscontrato nei confronti della Dpr. Il fatto che per più di cinquant’anni si sia utilizzata la peer review classica non ci autorizza a concludere che questo sia il modo migliore di procedere, soprattutto quando mancano i termini di paragone. Come scienziati, è nostro dovere continuare a fare ricerca, anche quando l’esperimento riguarda la selezione degli esperimenti stessi. Per fortuna le cose si stanno muovendo: l’Eso e Alma stanno prendendo seriamente in considerazione questa possibilità. E c’è un ulteriore fatto che considero potenzialmente interessante, per l’affermazione della Dpr, ovvero l’aspetto finanziario della gestione della peer review classica».

In che senso?

«Anche se, rispetto al costo delle operazioni sostenuto da organizzazioni come l’Eso, il costo relativo alla revisione delle proposte è relativamente insignificante, in termini assoluti resta comunque non trascurabile. La maggior parte del budget va in biglietti aerei e hotel. Ovviamente, l’utilizzo della Dpr permetterebbe di rimuovere queste spese e di utilizzarle, ad esempio, per attività come laboratori di scrittura proposte e training per i revisori. Con queste misure si potrebbe mitigare il punto debole di cui abbiamo parlato prima».

Per saperne di più:

Leggi su Nature Astronomy l’articolo “Distributed peer review enhanced with natural language processing and machine learning”, di Wolfgang E. Kerzendorf, Ferdinando Patat, Dominic Bordelon, Glenn van de Ven e Tyler A. Pritchard