Ricerca avanzata

Effettua la tua ricerca all'interno delle riviste pubblicate dal 2000 fino ad oggi!
PILLOLE DI STATISTICA

Guida alla scelta dei test statistici

Nicolucci A.
In qualsiasi studio clinico, l’applicazione dei test statistici è necessaria per verificare se sia presente un’associazione fra alcune caratteristiche o se intervenendo, ad esempio con un trattamento, sia possibile modificare specifici parametri o modificare la storia naturale di una patologia. La scelta del test statistico più adeguato è fondamentale per massimizzare la probabilità di evidenziare un determinato effetto, qualora tale effetto sia effettivamente presente. Per orientarsi nella scelta, è innanzitutto necessario verificare la natura delle variabili analizzate (variabili continue, ordinali o nominali). Per le variabili continue, è inoltre necessario verificarne la distribuzione. In caso di variabili continue, normalmente distribuite, è da privilegiare la scelta di test parametrici (basati sui parametri media e deviazione standard). In tutte le altre circostanze, è preferibile utilizzare la famiglia dei test non parametrici (basati sui ranghi). I test non parametrici dovrebbero sempre essere utilizzati, a prescindere dal tipo di variabile, quando il numero di osservazioni è esiguo (abitualmente inferiore a 20). All’interno di ciascuna famiglia (test parametrici e non parametrici) la scelta del test più idoneo dovrà essere guidata dal tipo di quesito e dalla necessità di esplorare il rapporto fra due variabili (analisi bivariata) o fra più variabili (analisi multivariata). In conclusione, la qualità di qualsiasi progetto di ricerca può essere grandemente migliorata se si garantisce già in fase di pianificazione una coerenza fra il quesito di ricerca, le informazioni da raccogliere per rispondere al quesito, e le modalità con cui saranno analizzati i dati.

I test statistici

In qualsiasi studio clinico è prevista la raccolta di dati, che vengono utilizzati per descrivere la popolazione in studio e per rispondere a uno o più quesiti di ricerca. Di solito, l’obiettivo di uno studio è valutare se esista un’associazione fra alcune caratteristiche o se intervenendo, ad esempio con un trattamento, sia possibile modificare specifici parametri o modificare la storia naturale di una patologia.

Ad esempio, si potrebbero raccogliere dati per indagare se esiste una correlazione fra livello di obesità e livello di controllo metabolico in una popolazione di soggetti affetti da diabete tipo 2, o per valutare se un intervento educativo rivolto a promuovere stili di vita più salutari sia in grado di ridurre i livelli di emoglobina glicosilata in soggetti con diabete tipo 1.

Per rispondere a questi quesiti, utilizziamo i test statistici, che ci permetteranno di accettare o di rifiutare (confutare) una ipotesi. Tutti i test statistici partono dall’ipotesi nulla che non esista una relazione fra le variabili in studio. Se ad esempio volessimo testare l’ipotesi che, fra i soggetti con diabete, il livello di controllo metabolico dipende dal livello di obesità espresso dall’indice di massa corporea (BMI), l’ipotesi nulla di partenza sarebbe rappresentata da una completa assenza di correlazione fra controllo metabolico e BMI. Scopo del test statistico sarà quello di suggerirci se accettare questa ipotesi nulla, o se invece rifiutarla, accettando quindi l’ipotesi alternativa che ci sia un rapporto significativo fra controllo metabolico e livello di obesità. Tuttavia in qualsiasi studio, per grande che esso sia, il numero di pazienti arruolati costituirà sempre una piccola frazione di tutti gli individui affetti da quella specifica patologia. Sebbene si assuma che il campione studiato sia rappresentativo della popolazione da cui esso deriva, a causa della variabilità biologica, ciò potrebbe non essere vero e le conclusioni a cui perveniamo analizzando il nostro campione potrebbero quindi essere erronee. Per tale ragione, i risultati di un test statistico sono sempre espressi in termini probabilistici. In altre parole, nell’accettare o rifiutare l’ipotesi nulla possiamo commettere un errore; se tuttavia la probabilità di commettere tale errore è molto bassa, allora potremo accettare con sufficiente fiducia le conclusioni a cui siamo arrivati.

Ma in base a quale regola decidiamo di accettare o di rifiutare l’ipotesi nulla? La decisione viene presa in base al valore di p associato al nostro test statistico. Il valore di p sta a indicare la probabilità di commettere un errore rifiutando l’ipotesi nulla, e cioè la probabilità di sbagliare, affermando ad esempio che c’è una relazione significativa fra controllo metabolico e obesità. Per convenzione, rifiutiamo l’ipotesi nulla e accettiamo di conseguenza l’ipotesi alternativa, tutte le volte che il valore di p è minore o uguale a 0,05. Un valore di p < 0,05 sta a indicare che abbiamo una probabilità di sbagliare minore del 5%, rifiutando l’ipotesi nulla e accettando l’ipotesi alternativa.

Tornando all’esempio del rapporto fra controllo metabolico (espresso dai livelli di HbA1c) e obesità, supponiamo che i pazienti con BMI compreso fra 25 e 27 abbiano valori medi di HbA1c di 7,28 ± 1,7 (media ± deviazione standard), mentre fra i soggetti francamente obesi, con BMI > 30 il valore di HbA1c sia di 7,51 ± 1,6. La domanda che ci poniamo è la seguente: i livelli di HbA1c sono significativamente più elevati nelle persone obese? In altre parole, esiste una relazione fra livelli di HbA1c e BMI? L’ipotesi nulla di partenza è che non ci sia relazione fra le due variabili, e che quindi i livelli medi di HbA1c non differiscano in modo significativo nei due gruppi di pazienti, classificati in base al loro BMI. L’ipotesi alternativa è invece rappresentata dall’esistenza di una relazione fra le due variabili, e quindi di un controllo metabolico significativamente peggiore nelle persone obese (BMI > 30) rispetto alle altre. Applicando il test statistico appropriato, che in questo caso è rappresentato dal test t di student per dati non appaiati, otterremo un valore di p pari a 0,009. Cosa ci suggerisce questo valore di p? Un valore di p di 0,009 sta a indicare che, rifiutando l’ipotesi nulla e affermando quindi che c’è una relazione significativa fra BMI e livelli di HbA1c, abbiamo una probabilità di sbagliare inferiore all’1%. In altre parole, la probabilità che sia vera l’ipotesi nulla, e che non ci sia quindi relazione fra le due variabili, è inferiore all’1%. Alla luce di questi risultati, possiamo essere ragionevolmente sicuri di non sbagliare affermando che i livelli medi di HbA1c sono significativamente più alti nelle persone con BMI > 30, rispetto a quelle con BMI compreso fra 25 e 27.

I tipi di variabile

Le informazioni raccolte nel corso di uno studio, e abitualmente riportate su un’apposita scheda raccolta dati, riguardano generalmente le caratteristiche socio-demografiche e cliniche dei pazienti arruolati. Ognuna di queste caratteristiche (ad es. età, sesso, stadio di malattia ecc.) prende il nome di “variabile”. La scelta del test statistico più appropriato dipende dal tipo di variabile considerata.

Le variabili utilizzate nell’ambito di un qualsiasi studio possono essere di tre tipi: continue, ordinali, o nominali.

Le variabili continue possono assumere un numero infinito di valori all’interno di un certo ambito. Inoltre, la distanza che c’è, ad esempio, fra 3 e 4, è la stessa esistente fra, ad esempio, 20 e 21. Questo vuol dire che se consideriamo il peso, tipica variabile continua, un soggetto che pesa 80 kg avrà un peso che è effettivamente doppio rispetto a un soggetto che pesi 40 kg. Età, pressione arteriosa, glicemia, sono tutti esempi di variabili continue.

Le variabili ordinali si differenziano da quelle continue poiché possono assumere solo un numero finito di valori all’interno di uno specifico intervallo. Inoltre, pur essendo i valori posti secondo un ordine predeterminato (ad es. uno scompenso cardiaco di classe IV è più grave di uno di classe III, che a sua volta è più grave di uno scompenso di classe II), non c’è equidistanza fra i valori (non possiamo cioè affermare che uno scompenso di classe IV sia il doppio grave di uno di classe II o quattro volte più grave di uno scompenso di classe I). Gli stadi di malattia, o le misure di qualità di vita sono tipicamente variabili ordinali. Infine, le variabili nominali esprimono una qualità del tipo “tutto o nulla”, senza nessun ordine prestabilito. Ne sono un esempio il sesso, la razza, la presenza/assenza di una complicanza ecc.).

Per una variabile continua è poi necessario verificare se essa sia normalmente distribuita. Solo per questo tipo di variabili sarà infatti possibile utilizzare i test statistici parametrici, cioè basati sui parametri media e deviazione standard, mentre in tutti gli altri casi andranno utilizzati i test non parametrici.

La distribuzione normale

Le variabili continue, soprattutto nel caso di misure biologiche, assumono spesso una distribuzione caratteristica, graficamente simile a una campana rovesciata (Fig. 1). In altre parole, molte osservazioni cadono in un range di valori vicini alla media, mentre man mano che ci si allontana dalla media il numero di osservazioni diminuisce. Se pensiamo ad esempio all’altezza dei soggetti di una popolazione, molti soggetti avranno un’altezza vicina a quella media di quella popolazione, mentre man mano che ci si sposta verso valori di statura più elevati o più bassi si riduce il numero di soggetti. Tale distribuzione, detta normale o gaussiana, presenta alcune caratteristiche peculiari. In particolare, il valore della media, della mediana e della moda coincidono. Inoltre il 68% delle osservazioni hanno un valore compreso fra la media ± una deviazione standard (DS), il 95% entro la media ± 2 DS e il 99% entro la media ± 3 DS. Ma come facciamo a stabilire se una variabile continua è normalmente distribuita? In alcuni casi, è sufficiente una valutazione grafica. Se costruiamo un istogramma dei dati ed è evidente che la distribuzione di essi si allontana molto dall’aspetto a campana rovesciata, allora possiamo escludere la condizione di normalità. Più spesso tuttavia il semplice esame grafico non è sufficiente. Due indici numerici abitualmente riportati da tutti i software statistici riassumono in modo efficiente le informazioni che riguardano la distribuzione di una variabile continua: si tratta della skewness e della kurtosis. La skewness indica i livello di asimmetria della distribuzione. In caso di simmetria perfetta, il valore sarà pari a zero. Se il valore è positivo, allora la distribuzione sarà asimmetrica verso destra, mentre in caso di valore negativo essa sarà asimmetrica verso sinistra (Fig. 2). La kurtosis indica invece se la distribuzione a campana è molto “stretta” o “slargata”. Se la distribuzione è normale, la kurtosis sarà uguale a zero (95% delle osservazioni contenute entro media ± 2 DS). Se la kurtosis è negativa, allora la distribuzione è platicurtica, cioè slargata, il che equivale a dire che meno del 95% delle osservazioni cadono entro media ± 2 DS. Al contrario, se la kurtosis è positiva, allora la distribuzione è leptocurtica, cioè “stretta” (oltre il 95% delle osservazioni cadrà entro media ± 2 DS). I più comuni package statistici riportano oltre al valore di skewness e kurtosis, il loro errore standard.

Se il valore di skewness o di kurtosis, diviso per il rispettivo errore standard, è maggiore di 2 o inferiore a -2, allora la distribuzione non può essere considerata normale. Un’ultima, rapida modalità per valutare se una distribuzione differisce in maniera significativa dalla normalità è rappresentata dall’applicazione del test statistico di Kolmogorov-Smirnov. Tale test parte dall’ipotesi nulla che la distribuzione in esame non differisca da una distribuzione normale. Se l’applicazione del test porta a un valore di p < 0,05, allora dovremo rifiutare l’ipotesi nulla, e affermare che la distribuzione in esame differisce significativamente da una distribuzione normale.

Test parametrici e test non parametrici

Come già discusso in precedenza, saremo autorizzati a utilizzare un test parametrico, cioè basato sui parametri media e deviazione standard, solo nel caso in cui la variabile di interesse sia continua e normalmente distribuita. In tutti gli altri casi sono da preferire i test non parametrici. Tali test si basano sui ranghi delle osservazioni, non sul loro reale valore. In altre parole, le osservazioni vengono messe in ordine crescente, e a ognuna si attribuisce un numero corrispondente alla posizione che quell’osservazione occupa nella graduatoria (rango). I test statistici non parametrici vengono quindi basati sul confronto fra le somme dei ranghi. Ad esempio, se disponiamo di 5 osservazioni per una variabile, i cui valori siano 11, 25, 3, 26 e 20, dovremo per prima cosa disporre questi numeri in ordine crescente. A questo punto, assegneremo al valore più basso, cioè al 3, il valore di 1, a quello successivo, cioè all’11, il valore di 2, e così via. I test statistici successivi saranno basati sui valori dei ranghi, e non su quelli originari.

Se più osservazioni hanno uno stesso valore, per l’attribuzione del rango dovremo calcolare la media dei ranghi che avremmo attribuito a quei valori, se fossero stati fra di loro leggermente diversi. Ad esempio, se abbiamo i valori 3, 11, 20, 25 e 25, ai valori di 25 attribuiremo il rango 4,5 (media dei ranghi 4 e 5).

È importante sottolineare che i test non parametrici andrebbero sempre utilizzati quando i valori a disposizione sono pochi, e non è quindi possibile capire quale sia la distribuzione. Se ad esempio misuriamo il peso in 5 soggetti, sarà ben difficile capire se queste misure si distribuiscono in modo normale. Come regola generale, se il numero di osservazioni è inferiore a 20, non bisognerebbe mai usare un test parametrico. Questa regola è ampiamente disattesa nella ricerca di base, dove spesso, pur utilizzando un numero esiguo di animali da esperimento, vengono utilizzati i classici test parametrici (student t-test, ANOVA ecc.). Mentre non vi è alcun dubbio sulla necessità di dover utilizzare un test non parametrico per le variabili nominali e ordinali, ci si potrebbe chiedere in quale errore si incorrerebbe se, in presenza di una variabile continua, si utilizzasse sempre un test parametrico, a prescindere dalla distribuzione della variabile o, al contrario, sempre un test non parametrico. A questo proposito, è importante sottolineare che i test non parametrici sono tanto più potenti quanto più la distribuzione si discosta dalla normalità mentre, in presenza di una distribuzione normale, essi tendono a essere meno potenti dei test parametrici. Come conseguenza, se utilizzassimo un test parametrico quando la distribuzione è chiaramente non-normale, o di converso utilizzassimo un test non parametrico in presenza di una distribuzione normale, potremmo correre il rischio di non evidenziare come statisticamente significative delle associazioni che invece lo sono.

Va ricordato che in alcuni casi la trasformazione matematica di una variabile continua (ad es. trasformazione logaritmica, radice quadrata ecc.) può aiutare a ricondurre la distribuzione a una normale. Ovviamente, dopo la trasformazione matematica dovremo sempre verificare che i requisiti di normalità siano stati raggiunti. Inoltre, la trasformazione matematica di una variabile la rende meno interpretabile dal punto di vista clinico.

Infine, per motivi pratici e per facilitare l’interpretazione dei risultati, spesso variabili continue e ordinali possono essere trasformate in variabili categoriche. Ad esempio, invece di utilizzare il BMI come misura continua, si tende spesso a utilizzare classi prestabilite, che corrispondono alle categorie indicanti un peso nella norma, il sovrappeso e l’obesità.

La scelta dei test statistici

Una volta stabilito se dovremo utilizzare un test parametrico o non parametrico, il passo successivo per la scelta del test statistico più appropriato consisterà nell’identificare il tipo di quesito a cui vogliamo rispondere. Innanzitutto, se siamo interessati a esplorare il rapporto fra due variabili dovremo scegliere un test statistico adatto a un’analisi bivariata. Ad esempio, potremmo essere interessati a capire se i valori di HbA1c (variabile dipendente) tendono ad aumentare con l’età (variabile indipendente) o se i livelli medi di BMI (variabile dipendente) siano significativamente diversi nei due sessi (variabile indipendente). Qualora fossimo invece interessati a capire come varia il valore di una variabile dipendente in relazione a più variabili indipendenti, allora dovremo utilizzare un’analisi multivariata. Ad esempio, potremmo chiederci se, a parità di una serie di caratteristiche dei pazienti (età, BMI, stato socio-economico, durata del diabete ecc.) l’effetto di un farmaco sui livelli di HbA1c sia diverso nei maschi rispetto alle femmine. In questo caso metteremo in relazione una variabile dipendente (HbA1c) con una serie di variabili indipendenti simultaneamente (età, BMI ecc.).

Per ogni tipo di quesito, sarà disponibile il test parametrico o il suo corrispettivo non parametrico più adeguato. Le Tabelle I e II riportano i test statistici parametrici e non parametrici di più comune impiego, in relazione al tipo di quesito.

Conclusioni

L’analisi dei risultati di uno studio rappresenta un aspetto particolarmente delicato, che richiede una profonda conoscenza dei principi statistici di base. La disponibilità di package di facile accesso e “user friendly”, se da una parte rende più semplice l’esecuzione delle analisi statistiche anche da parte di persone poco esperte, dall’altra pone il rischio di un uso acritico dello strumento, con elevata probabilità di commettere errori di analisi e di interpretazione dei risultati. L’applicazione del test statistico più adeguato è infatti fondamentale per evitare risultati falsi negativi, cioè concludere erroneamente che non ci sia associazione fra le variabili in studio. Questo renderebbe vano lo sforzo fatto per disegnare lo studio, condurlo nel modo più adeguato e portarlo a termine.

Questo articolo non ha la pretesa di entrare nel merito dei singoli test statistici e della loro interpretazione, ma piuttosto di fornire una guida generale all’uso corretto dei test. Avere un’idea chiara del quesito di ricerca, delle informazioni da raccogliere e delle analisi necessarie è fondamentale fin dalla fase di pianificazione di qualsiasi studio. Erroneamente, si tende a pensare che la statistica entri in gioco solo dopo aver terminato la raccolta dei dati. Al contrario, è ampiamente riconosciuto che il piano statistico di analisi debba essere definito prima dell’inizio dello studio, coerentemente con il protocollo di ricerca. Questo eviterà che determinate informazioni vengano raccolte con un formato non idoneo all’analisi statistica. Ad esempio, se l’informazione sull’età viene raccolta direttamente in classi, piuttosto che come variabile continua, non sarà più possibile utilizzare test parametrici sulla variabile età. Analogamente, se si raccolgono le informazioni sull’incidenza di nuovi eventi cardiovascolari, ma non si associa a ogni evento la data di occorrenza, non sarà possibile applicare un’analisi per eventi tempo-dipendenti (ad es. curve di sopravvivenza). La pianificazione dettagliata del piano di analisi statistica (Quali variabili? Quali endpoint? Quali test statistici?) è inoltre fondamentale per evitare decisioni a posteriori, viziate dalla conoscenza dei dati e quindi suscettibili di bias.

In conclusione, la qualità di qualsiasi progetto di ricerca può essere grandemente migliorata se si garantisce già in fase di pianificazione una coerenza fra il quesito di ricerca, le informazioni da raccogliere per rispondere al quesito, e le modalità con cui saranno analizzati i dati. A questo fine, il coinvolgimento di una persona esperta di statistica già nelle fasi di definizione dello studio è fondamentale e deve sempre essere contemplato, non importa quanto piccolo o grande sia lo studio che si intende condurre.

Download PDF
ISCRIVITI

ISCRIVITI ALLA NOSTRA NEWSLETTER!

Vuoi ricevere gratuitamente anche la rivista cartacea? Scrivi il tuo indirizzo.

Vuoi ricevere gratuitamente anche la rivista cartacea?