Ricerca archivio avanzata

Ricerca avanzata

giornale italiano di diabetologia e metabolismo

CERCA CHIUDI
Pillole di Statistica

Test di ipotesi, valori di p e intervalli di confidenza

A. Nicolucci - Director, CORESEARCH, Center for Outcomes Research and Clinical Epidemiology

La statistica rappresenta da sempre una barriera per molti medici. Forse perché è erroneamente vissuta come disciplina astratta o forse perché è poco amata, in quanto conosciuta in maniera grossolana. Eppure è uno strumento materia indispensabile, non soltanto per il ricercatore che si accinge a ideare o condurre un’indagine, ma anche e soprattutto per il lettore di un qualsivoglia lavoro scientifico, del quale deve essere in grado di comprendere e interpretare autonomamente e con opportuno senso critico i risultati. L’articolo, con un’impostazione semplice e intuitiva, offre un primo “invito” a ritrovare nella statistica il suo immenso valore pragmatico: attraverso esempi e riferimenti al mondo della diabetologia; infatti spiega dapprima il significato della famigerata “P”, per poi chiarire l’importanza dell’intervallo di confidenza e l’impatto delle dimensioni del campione nella valutazione di un dato. In considerazione dell’ampiezza e complessità degli argomenti, la trattazione si limita soltanto ai primi rudimenti. Ma poiché le insidie sono sempre in agguato e ogni studio va sempre considerato alla luce della forza dell’evidenza, l’articolo offre originali spunti di riflessione, apprezzabili anche da chi avesse già dimestichezza con la materia.

Lo scopo principale di uno studio clinico consiste nel verificare se esista un’associazione o un rapporto di causa-effetto fra l’esposizione a un determinato fattore e la presenza di una patologia o fra il tipo di trattamento somministrato e i risultati clinici ottenuti. Una semplice ispezione dei dati raccolti non ci permetterebbe di trarre conclusioni attendibili, ed è pertanto necessario adottare un processo decisionale standardizzato e condiviso. Per rispondere a questi quesiti, si utilizzano pertanto i test statistici, che ci permettono di accettare o di respingere una specifica ipotesi riguardo l’associazione esplorata. Tutti i test statistici partono dall’ipotesi nulla che non esista una relazione fra le variabili in studio. Se ad esempio volessimo testare l’ipotesi che, fra i soggetti con diabete, le donne hanno un peggior controllo metabolico degli uomini, espresso dai livelli di HbA1c, l’ipotesi nulla di partenza sarebbe rappresentata da una completa assenza di correlazione fra controllo metabolico e genere (uomini e donne hanno gli stessi valori di HbA1c). Scopo del test statistico sarà quello di suggerirci se accettare questa ipotesi nulla, o se invece rifiutarla (confutarla), accettando invece l’ipotesi alternativa che ci sia un rapporto significativo fra controllo metabolico e genere.

Tuttavia, in qualsiasi studio, per grande che esso sia, il numero di soggetti arruolati costituirà sempre una piccola frazione di tutti i pazienti affetti da quella specifica patologia. Sebbene si assuma che il campione studiato sia rappresentativo della popolazione da cui esso deriva, a causa della variabilità biologica ciò potrebbe non essere vero, e le conclusioni a cui perveniamo analizzando il nostro campione potrebbero quindi essere erronee. Per tale ragione, i risultati del test statistico sono sempre espressi in termini probabilistici. In altre parole, nell’accettare o rifiutare l’ipotesi nulla possiamo commettere un errore; se tuttavia la probabilità di commettere tale errore è molto bassa, allora potremo accettare con sufficiente fiducia le conclusioni a cui siamo arrivati.

Ma in base a quale regola decidiamo di accettare o di rifiutare l’ipotesi nulla? La decisione viene presa in base al valore di p associato al nostro test statistico. Il valore di p sta a indicare la probabilità di commettere un errore rifiutando l’ipotesi nulla, e cioè la probabilità di sbagliare affermando ad esempio che c’è una relazione significativa fra controllo metabolico e genere. In altri termini, il valore di p indica quale sia la probabilità di ottenere il risultato da noi ottenuto solo per effetto del caso. Per convenzione, rifiutiamo l’ipotesi nulla, e accettiamo di conseguenza l’ipotesi alternativa, se il valore di p è inferiore o uguale a 0,05. Un valore di p < 0,05 sta a indicare che abbiamo una probabilità di sbagliare minore del 5%, rifiutando l’ipotesi nulla e accettando l’ipotesi alternativa.

Tornando all’esempio del rapporto fra controllo metabolico e genere, supponiamo che i pazienti di sesso maschile abbiano valori medi di HbA1c di 7,28 ± 1,7 (media ± deviazione standard), mentre fra le donne il valore di HbA1c sia di 7,51 ± 1,6. La domanda che ci poniamo è la seguente: i livelli di HbA1c sono significativamente più elevati nelle donne? In altre parole, esiste una relazione fra livelli di HbA1c e genere? L’ipotesi nulla di partenza è che non ci sia relazione fra le due variabili, e che quindi i livelli medi di HbA1c non differiscano in modo significativo nei due gruppi di pazienti, classificati in base al genere. L’ipotesi alternativa è invece rappresentata dall’esistenza di una relazione fra le due variabili, e quindi di un controllo metabolico significativamente peggiore nelle persone di sesso femminile rispetto ai maschi. Applicando il test statistico appropriato, che in questo caso è rappresentato dal test t di student per dati non appaiati, otterremo un valore di p pari a 0,009. Cosa ci suggerisce questo valore di p? Un valore di p di 0,009 sta a indicare che, rifiutando l’ipotesi nulla, e affermando quindi che c’è una relazione significativa fra genere e livelli di HbA1c, abbiamo una probabilità di sbagliare inferiore all’1%. Espresso in altri termini, la differenza nei valori medi di HbA1c fra maschi e femmine documentata nel nostro studio potrebbe verificarsi per solo effetto del caso con una probabilità inferiore all’1%. Alla luce di questi risultati, possiamo essere ragionevolmente sicuri di non sbagliare affermando che i livelli medi di HbA1c sono significativamente più alti nelle persone di sesso femminile, rispetto a quelle di sesso maschile.

Sebbene universalmente accettato, il valore di p per stabilire la significatività di un risultato ha dei limiti. Innanzitutto, il valore soglia per definire un risultato come statisticamente significativo è arbitrariamente posto a 0,05. Ma possiamo affermare con sicurezza che un p = 0,06 o 0,07 non lo sia? In effetti, il rischio di accettare erroneamente l’ipotesi alternativa passerebbe dal 5 al 6-7%, ma resterebbe comunque molto basso! Inoltre, quando applichiamo un test statistico, il valore di p ottenuto si riferirà alla probabilità di errore per quello specifico test. Se nell’ambito di uno studio, come sempre accade, facciamo tante analisi statistiche sui nostri dati, la probabilità di trovare un valore di p < 0,05 per puro caso aumenta in modo sostanziale all’aumentare del numero di test eseguiti. Ad esempio, eseguendo 10 test, la probabilità che almeno uno dia un risultato statisticamente significativo per effetto del caso sale dal 5 al 40%, mentre se i test fossero 20 la probabilità salirebbe al 64%. Infine, è di primaria importanza sottolineare che il valore di p non fornisce alcuna indicazione riguardo la rilevanza clinica dei risultati ottenuti. Erroneamente, si tende spesso a interpretare un valore di p particolarmente basso (ad esempio p < 0,0001) come una prova della grande rilevanza del risultato ottenuto. In realtà, il fatto che il risultato ottenuto sia statisticamente significativo implica solo che è molto probabile che questo risultato sia vero, e non dovuto al caso. Il valore di p non può tuttavia dirci se tale risultato è anche importante dal punto di vista clinico, poiché questo è un giudizio che spetta solo a chi sta valutando i risultati, e prescinde dalla statistica. Se ad esempio su un campione di 20.000 pazienti con diabete confrontiamo l’efficacia di due farmaci ipoglicemizzanti e otteniamo valori medi di HbA1c di 7,1 ± 1,3 con il farmaco A e valori medi di 7,3 ± 1,4 con il farmaco B, tale differenza nei valori medi risulterà altamente significativa. È sufficiente questo dato per affermare che bisogna preferire il farmaco A? Probabilmente no. Infatti, dai dati epidemiologici è difficile immaginare che una differenza così piccola nei valori medi di HbA1c si possa tradurre in una differenza importante nel rischio di sviluppare le complicanze della malattia. Certamente, se i farmaci A e B avessero lo stesso profilo di tollerabilità e lo stesso costo, dovremmo sempre preferire quello che si è dimostrato più efficace, anche se di poco. Se al contrario il farmaco B fosse meglio tollerato o meno costoso, allora potrebbe in specifiche circostanze essere preferito, nonostante un’efficacia lievemente (anche se statisticamente significativa) inferiore.

A causa delle limitazioni dei valori di p, tutte le riviste scientifiche più importanti raccomandano di utilizzare, accanto o in sostituzione dei valori di p, gli intervalli di confidenza al 95% (IC 95%). Per capire cosa siano gli intervalli di confidenza è necessario tornare su un concetto già espresso. Quando conduciamo uno studio su un campione di pazienti, questo rappresenterà solo una piccola parte dell’intera popolazione dei pazienti affetti da quella malattia. Noi assumiamo che si tratti di un campione casuale, e pertanto rappresentativo dell’intera popolazione da cui esso deriva. In realtà, a causa della variabilità biologica, se ripetessimo lo studio tante volte, su tanti campioni diversi, non otterremmo sempre lo stesso risultato. Se ad esempio confrontassimo l’efficacia di due farmaci su tanti campioni diversi, potremmo ottenere risultati anche molto discordanti, soprattutto se ogni singolo campione fosse di piccole dimensioni. Ovviamente, una stima esatta dell’effetto vero dei farmaci sarebbe possibile solo studiando l’intera popolazione, ma questo non ci è consentito; è tuttavia possibile stimare un intervallo di valori, all’interno dei quali si trova, con una probabilità del 95%, l’effetto vero. Tale intervallo è fornito dagli intervalli di confidenza al 95%.

Ad esempio, da una revisione sistematica degli studi clinici randomizzati e controllati con placebo che valutavano l’efficacia degli ACE-inibitori, è emerso come il trattamento con questi farmaci fosse in grado di ridurre gli eventi cardiovascolari maggiori del 21%. Gli intervalli di confidenza al 95% di tale stima erano 14-27. Come vanno interpretati questi risultati? I dati di quest’analisi ci dicono che, in media, nel campione dei pazienti studiati, l’effetto del trattamento è consistito in una riduzione del 21% negli eventi. Se tuttavia avessimo studiato altri gruppi di pazienti, non necessariamente avremmo ottenuto sempre una riduzione degli eventi della stessa entità. Gli IC 95% ci dicono che, con una probabilità del 95%, l’effetto vero degli ACE inibitori consiste in una riduzione degli eventi compresa fra il 14 e il 27%.

È facile capire come gli IC 95% siano più informativi del valore di p. Infatti, essi forniscono una stima di efficacia di diretta interpretabilità in termini clinici. Inoltre, gli IC 95% forniscono anche un’indicazione sulla significatività statistica del risultato. Se infatti gli IC 95% sono entrambi > 0 o entrambi < 0 (qualora si stia parlando di tassi di eventi o di differenze fra valori medi), o entrambi > 1 o < 1 (qualora si parli di rischi relativi), allora il risultato sarà anche statisticamente significativo. Gli IC 95% forniscono inoltre un’idea della precisione della stima; infatti, più sono stretti, più la stima è precisa. Di solito, gli IC 95% tendono a essere più stretti, e di conseguenza la stima più precisa, quanto maggiore è il numero di soggetti studiati.

Per meglio chiarire i concetti appena espressi, consideriamo i risultati di una sperimentazione sugli ACE-inibitori. Lo studio evidenzia come i pazienti trattati con il farmaco, rispetto a quelli che ricevevano placebo, avevano una mortalità più bassa del 5%. Gli IC 95% di questa stima vanno da -1,2 a 12. Poiché essi includono il valore nullo (cioè lo zero), il risultato non è statisticamente significativo. Se ci fossimo limitati al valore di p, avremmo trovato un valore > 0,05, e avremmo quindi concluso che la differenza di sopravvivenza fra pazienti trattati con ACE inibitore e placebo non era statisticamente significativa. Tuttavia, guardando all’IC superiore, vediamo che esso è pari a 12. Questo vuol dire che l’effetto vero del farmaco potrebbe anche consistere in un aumento della sopravvivenza del 12%, che sicuramente sarebbe molto importante dal punto di vista clinico. Pertanto, in caso di risultato non statisticamente significativo, se l’intervallo di confidenza superiore suggerisce un potenziale effetto clinicamente rilevante, non dobbiamo considerare lo studio come prova conclusiva di mancanza di efficacia, ma dovremo probabilmente condurre un’ulteriore sperimentazione, di maggiori dimensioni, per rispondere adeguatamente al quesito di efficacia.

L’esempio riportato in Figura 1 aiuta a comprendere l’importanza degli IC 95% per avere una indicazione della precisione della stima. A sinistra vengono riportati i risultati di uno studio ipotetico, condotto su 1000 pazienti, 500 dei quali trattati con il farmaco A, e 500 con il farmaco B. Il farmaco A risulta efficace in 400 pazienti su 500 (80%), mentre il farmaco B risulta efficace solo in 340 pazienti su 500 (68%). La differenza di efficacia, pari al 12%, risulta statisticamente significativa. Gli IC 95% ci indicano che, con una probabilità del 95%, la differenza vera di efficacia a favore del farmaco A è compresa fra il 7 e il 17%. Passiamo ora a esaminare la parte destra della figura. In questo caso, il confronto fra i due farmaci precedenti viene attuato confrontando due gruppi di 25 pazienti ognuno. Anche in questo caso, il farmaco A risulterà efficace nell’80% dei pazienti, e il farmaco B nel 68%. Anche in questo caso, pertanto, la differenza di efficacia a favore del farmaco A sarà del 12%. Se però osserviamo il valore di p, constatiamo come questo sia tutt’altro che significativo. Gli IC 95% ci indicano che i risultati sono compatibili sia con una minore efficacia del 12% del trattamento A (IC inferiore pari a -12) che con una sua maggiore efficacia del 36% (IC superiore pari a +36). È quindi evidente come, a parità di efficacia dei farmaci testati, la stima di efficacia derivante dal primo studio, condotto su 1000 pazienti, sia molto più precisa di quella derivante dal secondo studio, che di fatto non permette di giungere ad alcuna conclusione.

Figura 1. Risultati di due studi ipotetici di grandezza diversa che confrontano l’efficacia di due trattamenti.

La Figura 2 mostra graficamente la differenza fra i risultati ottenuti nel campione di 1000 soggetti e quelli ottenuti nel campione di 50 soggetti. La stima puntuale di efficacia è la stessa, ma nel primo caso gli IC 95% sono molto stretti (stima accurata) e non incrociano la linea verticale del valore nullo (risultato statisticamente significativo). Nel secondo caso, l’ampiezza degli IC 95% non consente di trarre nessuna conclusione riguardo l’efficacia comparativa dei due farmaci.

Figura 2. Rappresentazione grafica dei risultati di due studi ipotetici di grandezza diversa che confrontano l’efficacia dei due trattamenti.

In conclusione, gli intervalli di confidenza forniscono un grande aiuto a interpretare dal punto di vista clinico i risultati di un’analisi statistica, oltre a confermare l’eventuale presenza di una significatività statistica. In termini pratici, nel presentare i risultati di uno studio è raccomandato di riportare sempre gli IC 95%, associati o meno al valore di p.

ISCRIVITI

ISCRIVITI ALLA NOSTRA NEWSLETTER!