7 maggio 2023

Perché la maggior parte dei risultati delle ricerche pubblicate sono falsi

Abstract
Si teme sempre più che la maggior parte dei risultati delle ricerche attualmente pubblicate siano falsi. La probabilità che un'affermazione di ricerca sia vera può dipendere dalla potenza e dalla parzialità dello studio, dal numero di altri studi sulla stessa questione e, soprattutto, dal rapporto tra relazioni vere e relazioni non vere tra le relazioni esaminate in ogni campo scientifico. In questo quadro, è meno probabile che un risultato della ricerca sia vero quando gli studi condotti in un campo sono più piccoli; quando le dimensioni degli effetti sono minori; quando c'è un numero maggiore e una minore preselezione delle relazioni testate; quando c'è una maggiore flessibilità nei disegni, nelle definizioni, negli esiti e nelle modalità di analisi; quando c'è un maggiore interesse e pregiudizio finanziario e di altro tipo; e quando sono coinvolti più team in un campo scientifico a caccia di significatività statistica. Le simulazioni mostrano che per la maggior parte dei disegni e dei contesti di studio è più probabile che un'affermazione di ricerca sia falsa che vera. Inoltre, per molti campi scientifici attuali, i risultati della ricerca dichiarati possono spesso essere semplicemente misure accurate dei pregiudizi prevalenti. In questo saggio discuto le implicazioni di questi problemi per la conduzione e l'interpretazione della ricerca.
(...)
I risultati della ricerca dichiarati possono spesso essere semplicemente misure accurate del pregiudizio prevalente

Come si è visto, la maggior parte della ricerca biomedica moderna opera in aree con una probabilità molto bassa di risultati veri prima e dopo lo studio. Supponiamo che in un campo di ricerca non ci siano risultati veri da scoprire. La storia della scienza ci insegna che in passato l'impegno scientifico ha spesso sprecato sforzi in campi che non hanno assolutamente prodotto informazioni scientifiche vere, almeno in base alle nostre attuali conoscenze. In un tale "campo nullo", ci si aspetterebbe idealmente che tutte le dimensioni degli effetti osservati variassero casualmente intorno al valore nullo, in assenza di pregiudizi. La misura in cui i risultati osservati si discostano da ciò che ci si aspetta dal solo caso sarebbe semplicemente una misura pura del bias prevalente.

Ad esempio, supponiamo che nessun nutriente o modello alimentare sia effettivamente determinante per il rischio di sviluppare un tumore specifico. Supponiamo anche che la letteratura scientifica abbia esaminato 60 nutrienti e sostenga che tutti siano correlati al rischio di sviluppare questo tumore con rischi relativi compresi tra 1,2 e 1,4 per il confronto tra le tertili di assunzione superiori e inferiori. Quindi le dimensioni dell'effetto dichiarate non misurano altro che il bias netto che è stato coinvolto nella generazione di questa letteratura scientifica. Le dimensioni degli effetti dichiarati sono in realtà le stime più accurate del bias netto. Ne consegue addirittura che, tra i "campi nulli", i campi che dichiarano effetti più forti (spesso accompagnati da affermazioni di importanza medica o di salute pubblica) sono semplicemente quelli che hanno sostenuto i bias peggiori.

Per i campi con un PPV molto basso, le poche relazioni vere non distorcerebbero molto il quadro generale. Anche se poche relazioni sono vere, la forma della distribuzione degli effetti osservati darebbe comunque una chiara misura dei pregiudizi coinvolti nel campo. Questo concetto ribalta completamente il modo in cui consideriamo i risultati scientifici. Tradizionalmente, gli sperimentatori hanno visto effetti grandi e altamente significativi con entusiasmo, come segni di scoperte importanti. Nella maggior parte dei campi della ricerca moderna, effetti troppo grandi e troppo significativi possono in realtà essere più probabilmente segni di grandi distorsioni. Dovrebbero indurre i ricercatori a un'attenta riflessione critica su ciò che potrebbe essere andato storto nei loro dati, nelle loro analisi e nei loro risultati.

Naturalmente, gli sperimentatori che lavorano in qualsiasi campo probabilmente si opporranno ad accettare che l'intero settore in cui hanno trascorso la loro carriera sia un "campo nullo". Tuttavia, altre linee di evidenza, o i progressi della tecnologia e della sperimentazione, possono portare alla fine allo smantellamento di un campo scientifico. Ottenere misure della distorsione netta in un campo può essere utile anche per capire quale potrebbe essere la gamma di distorsioni che operano in altri campi in cui possono operare metodi analitici, tecnologie e conflitti simili.

Come possiamo migliorare la situazione?

È inevitabile che la maggior parte dei risultati della ricerca siano falsi o possiamo migliorare la situazione? Un problema importante è che è impossibile sapere con certezza al 100% quale sia la verità in qualsiasi domanda di ricerca. In questo senso, il puro standard "aureo" è irraggiungibile. Tuttavia, esistono diversi approcci per migliorare la probabilità post-studio.

Prove meglio alimentate, ad esempio studi di grandi dimensioni o meta-analisi a basso bias, possono aiutare, in quanto si avvicinano al "gold" standard sconosciuto. Tuttavia, gli studi di grandi dimensioni possono ancora presentare pregiudizi, che devono essere riconosciuti ed evitati. Inoltre, è impossibile ottenere prove su larga scala per tutti i milioni e trilioni di domande poste dalla ricerca attuale. Le prove su larga scala dovrebbero essere mirate a domande di ricerca in cui la probabilità pre-studio è già considerevolmente alta, in modo che un risultato significativo della ricerca porti a una probabilità post-test che sarebbe considerata abbastanza definitiva. Le prove su larga scala sono inoltre particolarmente indicate quando possono testare concetti importanti piuttosto che domande specifiche e ristrette. Un risultato negativo può quindi confutare non solo una specifica affermazione proposta, ma un intero campo o una sua parte considerevole. Selezionare i risultati degli studi su larga scala in base a criteri ristretti, come la promozione commerciale di un farmaco specifico, è in gran parte ricerca sprecata. Inoltre, si dovrebbe essere cauti sul fatto che studi estremamente ampi possono avere maggiori probabilità di trovare una differenza formalmente significativa dal punto di vista statistico per un effetto banale che non è realmente significativamente diverso dal valore nullo [32-34].

In secondo luogo, la maggior parte delle domande di ricerca sono affrontate da molti gruppi, ed è fuorviante enfatizzare i risultati statisticamente significativi di un singolo gruppo. Ciò che conta è la totalità delle prove. Può essere utile anche ridurre i pregiudizi attraverso il miglioramento degli standard di ricerca e la riduzione dei pregiudizi. Tuttavia, ciò potrebbe richiedere un cambiamento nella mentalità scientifica che potrebbe essere difficile da raggiungere. In alcuni disegni di ricerca, gli sforzi potrebbero avere più successo con la registrazione anticipata degli studi, ad esempio gli studi randomizzati [35]. La registrazione rappresenterebbe una sfida per la ricerca che genera ipotesi. Una sorta di registrazione o di messa in rete delle raccolte di dati o degli sperimentatori all'interno dei campi potrebbe essere più fattibile della registrazione di ogni singolo esperimento generatore di ipotesi. In ogni caso, anche se non vedremo molti progressi nella registrazione degli studi in altri campi, i principi dello sviluppo e del rispetto di un protocollo potrebbero essere più ampiamente mutuati dagli studi controllati randomizzati.

Infine, invece di inseguire la significatività statistica, dovremmo migliorare la nostra comprensione dell'intervallo di valori R - le probabilità pre-studio - in cui operano gli sforzi di ricerca [10]. Prima di eseguire un esperimento, gli sperimentatori dovrebbero considerare quali sono le probabilità di testare una relazione vera piuttosto che una non vera. In alcuni casi, si possono verificare valori R elevati ipotizzati. Come descritto sopra, ogni volta che è eticamente accettabile, dovrebbero essere condotti studi di grandi dimensioni con un bias minimo su risultati di ricerca considerati relativamente consolidati, per vedere quanto spesso vengono effettivamente confermati. Sospetto che molti "classici" affermati non supereranno il test [36].

Tuttavia, la maggior parte delle nuove scoperte continuerà a derivare da ricerche che generano ipotesi con probabilità pre-studio basse o molto basse. Dovremmo quindi riconoscere che il test di significatività statistica nel rapporto di un singolo studio fornisce solo un quadro parziale, senza sapere quanti test sono stati fatti al di fuori del rapporto e nel campo in generale. Nonostante un'ampia letteratura statistica per le correzioni dei test multipli [37], di solito è impossibile decifrare quanto dragaggio dei dati da parte degli autori dello studio o di altri gruppi di ricerca abbia preceduto i risultati della ricerca riportata. Anche se fosse possibile determinarlo, questo non ci informerebbe sulle probabilità precedenti allo studio. Pertanto, è inevitabile fare ipotesi approssimative sul numero di relazioni che ci si aspetta siano vere tra quelle sondate nei vari campi di ricerca e disegni di ricerca. Il campo più ampio può fornire una guida per stimare questa probabilità per il progetto di ricerca isolato. Sarebbe utile attingere anche all'esperienza dei pregiudizi rilevati in altri campi limitrofi. Anche se queste ipotesi sarebbero notevolmente soggettive, sarebbero comunque molto utili per interpretare le affermazioni della ricerca e contestualizzarle.

John P. A. Ioannidis
30 agosto 2005
https://doi.org/10.1371/journal.pmed.0020124

Seguici su Telegram  @VociDallaStrada

Nessun commento:

Posta un commento

Avvertenze da leggere prima di intervenire sul blog Voci Dalla Strada

Non sono consentiti:
- messaggi pubblicitari
- messaggi con linguaggio offensivo
- messaggi che contengono turpiloquio
- messaggi con contenuto razzista o sessista
- messaggi il cui contenuto costituisce una violazione delle leggi italiane (istigazione a delinquere o alla violenza, diffamazione, ecc.)