Autore |
Discussione |
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 06 ottobre 2010 : 13:08:39
|
Ciao a tutti, ho due distribuzioni NON normali e NON omoschedastiche e dovrei confrontarle. Non posso usare il test di wilcoxon (Mann-Whitney) perché non omoschedastico e non posso usare T test con formula di Dixon-Massey perché non normali. Mi chiedevo se il test di Friedman è applicabile anche nel caso di soli due gruppi. Grazie e a presto Stefano
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 07 ottobre 2010 : 10:29:16
|
ci dici qualcosa di più dei dati??? quanti sono? cosa sono? come fai a dire che non sono Normali?
|
|
|
kORdA
Utente Attivo
Prov.: Milano
Città: Monza
1303 Messaggi |
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 12 ottobre 2010 : 13:02:42
|
Grazie a tutti per i vostri post. - per chick 80: Grazie. Sono sicuro che hai ragione, nondimeno devo affidarmi a valutazioni ogettive perché non vorrei impelagarmi nella dimostrazione di quanto la deviazione della normalità sia "moderata". Insomma, se ho una soglia di p-value per il test di bartlett, va bene, ma in mancanza di questa mi devo attenere ai requisiti del t test. Grazie mille comunque - per TMax: sono due gruppi di numeri reali (circa 50 valori per gruppo) ottenuti da una misura sperimentale. Sono indipendenti (non appaiati). Dico che non sono normali perché ho eseguito test di omogeneità della varianza (sia il test di Bartlett che il test di Fligner-killen). E dico che non sono normali perché shapiro-wilk dice così. Grazie mille - per Korda: di provare ho provato. Dici che va bene? Allora Friedman lo lascio perdere? Grazie mille.
Saluti
Stefano |
|
|
kORdA
Utente Attivo
Prov.: Milano
Città: Monza
1303 Messaggi |
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 12 ottobre 2010 : 19:36:33
|
cosa vuol dire che non puoi usare il test di wilcoxon (mann -whitney) perchè non omoschedastico? |
|
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 12 ottobre 2010 : 21:50:56
|
Allora, non voglio essere ossessivo, semplicemente nei testi di statistica così come in molti articoli o pagine su internet (ad esempio kasuya.ecology1.org/stats/utest01e.html) si definiscono come criteri per l'utilizzo di wilcoxon la non normalità (oddio, si può usare ma è dimostrato che risulta essere meno potente di test t) e la omoschedasticità. La seconda è chiara conseguenza della definizione dell'ipotesi nulla per questo test. Naturalmente mi rendo conto che moltissimi autori se ne infischiano bellamente di verificare l'omogeneità delle varianze. Altri addirittura usano wilcoxon dopo aver verificato che le distribuzioni sono eteroschedastiche (!!!). Ma volendo mettere su un protocollo di analisi il più "formalmente corretto" possibile mi piacerebbe fare le cose come vanno fatte. O meglio: NON fare le cosecome NON vanno fatte. Saluti Stefano P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare.... |
|
|
Glubus
Utente Junior
156 Messaggi |
Inserito il - 13 ottobre 2010 : 08:44:15
|
Se non ricordo male esistono due formulazioni di questo test e per una di queste può essere rilevante anche l'aspetto relativo alle diverse varianze (l'altra assume solo un diverso shift per le distribuzioni). Ciò detto, utilizzare un test sulla omogeneità delle varianze per decidere se reggano i presupposti per l'applicazione di un test è un po' come bruciare la barca prima di partire. I due test non sono indipendenti se ben ci pensi e spalanchi la porta ad un problema (piuttosto diffuso) di comparazioni "nascoste" (puoi pensarla in termini di gradi di libertà "nascosti" utilizzati nell'inferenza). Se ti interessa questo genere di problemi di moltiplicità nell'inferenza lo trovi descritto nel testo di Frank Harrell "Regression Modelling Strategies".
Mi preme però sottolineare come alle volte siamo un po' troppo condizionati da questi aspetti teorici, che forse avevano più rilevanza pratica prima dell'avvento di calcolatori e di software statistico suficientemente efficienti. Potresti infatti pensare ad un approccio più diretto all'inferenza sul tuo problema: ad esempio, anche senza ricorrere ad un pacchetto specializzato, con R sarebbe piuttosto semplice eseguire un test di permutazione o (meglio ancora nel tuo caso) un bootstrap. Per ultimo non ho ben capito perchè scomoderesti Friedman se non hai osservazioni ripetute sulle stesse unità.
GB
Citazione: Messaggio inserito da stefanken
Allora, non voglio essere ossessivo, semplicemente nei testi di statistica così come in molti articoli o pagine su internet (ad esempio kasuya.ecology1.org/stats/utest01e.html) si definiscono come criteri per l'utilizzo di wilcoxon la non normalità (oddio, si può usare ma è dimostrato che risulta essere meno potente di test t) e la omoschedasticità. La seconda è chiara conseguenza della definizione dell'ipotesi nulla per questo test. Naturalmente mi rendo conto che moltissimi autori se ne infischiano bellamente di verificare l'omogeneità delle varianze. Altri addirittura usano wilcoxon dopo aver verificato che le distribuzioni sono eteroschedastiche (!!!). Ma volendo mettere su un protocollo di analisi il più "formalmente corretto" possibile mi piacerebbe fare le cose come vanno fatte. O meglio: NON fare le cosecome NON vanno fatte. Saluti Stefano P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare....
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 13 ottobre 2010 : 08:59:53
|
Citazione: Grazie. Sono sicuro che hai ragione, nondimeno devo affidarmi a valutazioni ogettive perché non vorrei impelagarmi nella dimostrazione di quanto la deviazione della normalità sia "moderata"
Il link che ti ho scritto sopra si riferiva proprio a questo. Il test di Shapiro ti dice se la tua distribuzione si distacca dalla distribuzione normale ideale, purtroppo NON ti dice se è possibile utilizzare il t-test (o qualsiasi altra statistica) per l'analisi dei tuoi dati. Non credo sia il tuo caso (visto che hai solo 50 punti), ma se il campione fosse più grande sarebbe praticamente inutile usare un test di normalità (in quanto ti direbbe praticamente sempre che la distribuzione non è normale).
Hai provato a fare un istogramma o un grafico Q-Q dei tuoi dati? Deviano così tanto dalla normalità? Puoi provare a inserirlo qui sul forum?
==
Ad ogni modo, cercando un po' ho trovato che Chen e Luo hanno proposto una variante del test di Mann Whitney che può essere utilizzata in caso di eteroschedasticità. Some Modifications on the Application of the Exact Wilcoxon-Mann-Whitney Test - Chen X and Luo X - Commun Stat Simul C 2004
Tuttavia, come osservato da Neuhäuser e colleghi, "the modified test can be much more anticonservative than the Wilcoxon–Mann–Whitney test when the population means are identical, but the population variances differ". Vedi: The Chen–Luo test in case of heteroscedasticity - Neuhäuser M, Löscha C, Jöckela KH - Comput Stat Data An 2006
In questi casi gli autori suggeriscono l'uso del test di Brunner-Munzel. Il Brunnel-Munzel test lo puoi fare con R (funzione brunner.munzel.test del package lawstat)
Infine, vorrei sottolineare due cose: 1) ricorda sempre che "statisticamente significativo" non vuol dire "biologicamente significativo". Prima di andare a scomodare test che conoscono 3 persone al mondo (e che serviranno solo a darti problemi con i reviewers del tuo paper) comincia a pensare se gli effetti che vedi hanno un senso biologico. Se poi stai scrivendo (o pensi di scrivere) un paper di biostatistica allora è chiaro che la statistica è più importante della biologia in quel caso. Ma ricorda che un'analisi statistica perfetta di un problema che non ha senso biologico è inutile, almeno per un biologo.
2) Sono d'accordissimo con Globus a riguardo della possibilità di utilizzare un approccio di bootstrap
PS: penso che TMax fosse semplicemente confuso dal fatto che hai scritto che "Non posso usare il test di wilcoxon (Mann-Whitney) perché non omoschedastico", quando dovresti dire "Non posso usare il test di wilcoxon (Mann-Whitney) perché i miei dati non sono omoschedastici"
Citazione: P.S. Scusate i typo, le mie dita sono troppo grosse per la tastiera del cellulare....
ahahahah, mi ricorda l'episodio dei Simpson in cui Homer è troppo grasso per usare i tasti del telefono :) (senza offesa eh!) |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
kORdA
Utente Attivo
Prov.: Milano
Città: Monza
1303 Messaggi |
Inserito il - 13 ottobre 2010 : 09:21:43
|
Io avevo usato Kolmogorov-Smirnov perche', se non ricordo male, l'algoritmo che viene implementato per il test Mann-Whitney richiede che i campioni vengano reordinati (da qui forse deriva il requisito di omoschedasticita'?) |
http://www.linkedin.com/in/dariocorrada |
|
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 13 ottobre 2010 : 09:58:52
|
Rinnovo i ringraziamenti a tutti, vorrei dire che naturalmente ho fatto un grafico ad istogrammi e anche un grafico della densità (che mi sembra anche più intellegibile e soprattutto meno soggetto a scelte soggettive quali quelle di definire un intervallo per il campionamento). Il mio problema (chiedo scusa, probabilmente è psichiatrico) è che preferisco utilizzare una valutazione oggettiva della normalità (per quanto inaccurata in talune condizioni) piuttosto che andare ad esprimere una valutazione soggettiva derivate dal mio giudizio su un grafico. Naturalmente uso il plot come filtro per verificare se la stima del test di normalità appare falsata (a me interessa la "verità" ragionevole), ma sul paper metto il p-value di un test di normalità (se proprio mi chiedono di mettere qualcosa a supporto). Perché se uso il p-value posso mettere una referenza, anche autorevole, che mi supporta oggettivamente la scelta. Mentre se metto un grafico posso mettere il numero del mio oculista a supporto della cosa. Quindi il problema è pratico e riguarda il setup di un protocollo. Poi, naturalmente, caso per caso prometto solennemente di guardarmi tutti i plot e prendere le opportune decisioni collegate alla ampiezza campionaria, alla natura e all'origine delle misure. Naturalmente valuterò con grandissimo interesse sia il Brunnel-Munzel test che la variante di Chen dell Exact Wilcoxon-Mann-Whitney Test. Per quanto riguarda la valutazione biologica sono ben sicuro dell'alto livello scientifico di questo forum e non volevo tediarvi con ciò che ritenevo ovvio e cioè: Biology first. State pur tranquilli che le mie mere speculazioni sul metodo costituiscono la rifinitura di una impostazione medologica ed analitica orientata biologicamente, sennò andrei su riviste di altro taglio. Vorrei solo dissentire in merito alla eventualità (possibile naturalmente) che un referee possa fare storie solo perché non conosce un metodo. Se il metodo è pertinente, ed è possibile dimostrarlo, (e se naturalmente il referee non è uno stupido o un delinquente) non ho nessuna paura dei commenti che possa fare chi legge. Quando mi arrivano articoli da referare è piuttosto difficile che io conosca bene tutti i metodi che trattano. Se qualcosa non mi convince studio (magari chiedo le referenze) e cerco di valutare oggettivamente la cosa. Questa è una mia opinione naturalmente e mi prendo la responsabilità delle eventuali litigate coi referee. Altra cosa riguarda il bootstapping: non mi serve comunque una strategia di confronto? Ricampiono le mie popolazioni con una strategia appropriata, ma ogni confronto va fatto seguendo una metodo per confrontare le popolazioni ad ogni ciclo. O no? Mi spiegheresti cosa intendi? Bene, vi ringrazio ancora per la valanga di informazioni per le quali mi impegnerò in un equo tributo offrendovi una bevuta semmai l'articolo venisse accettato (lo saprete su queste pagine). A presto Stefano
|
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 13 ottobre 2010 : 10:36:55
|
scusa ma il problema è che non ha senso verificare la normalità dei dati!
|
|
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 13 ottobre 2010 : 10:59:21
|
quindi se ho capito bene visto che non ha senso verificare la normalità, visto che non ha senso verificare la omoschedasticità dei dati, non ha nessun senso usare test non parametrici per misure continue, giusto? Posso fare il test t per il resto della mia vita. ok se mi date una referenza la metto nella mia bibliografia e abbiamo finito.
|
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 13 ottobre 2010 : 12:26:38
|
se lo fai per il resto della tua vita ricordati di aggiustare per l'aumento dell'errore inflativo di I tipo!
dai non ti scaldare...sono incasinato e non ho ancora avuto il tempo di scrivere... oltre al tuo problema contingente che si può risolvere in molti modi questi topic possono servire anche per fare chiarezza su alcune cose utili non solo per te che hai un problema da risolvere ma per altri che leggono e sono interessati!
prometto che nel pomeriggio tornato a casa approfondisco la questione!
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 13 ottobre 2010 : 13:47:00
|
Citazione: quindi se ho capito bene visto che non ha senso verificare la normalità, visto che non ha senso verificare la omoschedasticità dei dati, non ha nessun senso usare test non parametrici per misure continue, giusto?
In attesa della risposta di TMax, che è molto più "statistico" di me, ti indico questo PDF che risponde alla tua domanda.
www.angelfire.com/wv/bwhomedir/notes/t_test_assumptions.pdf
Cito qui i passaggi principali :)
Citazione: A normal distribution ranges from minus infinity to positive infinity. So in truth, none of us who are dealing with real data ever sample from normally distributed populations. Likewise, it is a virtual impossibility for two populations (at least of the sort that would interest us as researchers) to have exactly equal variances. The upshot is that we never really meet the assumptions of normality and homogeneity of variance.
Citazione: Tests of normality have very little power to detect departure from normality when sample sizes are small, and have too much power when sample sizes are large. So they are really quite useless.
Citazione: A far better way to “test” the shape of the distribution is to ask yourself the following simple question: Is it fair and honest to describe the two distributions using means and SDs?
If the answer is YES, then it is probably fine to proceed with your t-test. If the answer is NO (e.g., due to severe skewness, or due to the scale being too far from interval), then you should consider using another test, or perhaps transforming the data. Note that the answer may be YES even if the distributions are somewhat skewed, provided they are both skewed in the same direction (and to the same degree).
Citazione: if the larger of the two variances is no more than 4 times the smaller,2 the t-test approximation is probably good enough—especially if the sample sizes are equal.
Ed infine la famosa citazione di Box: "All models are wrong. Some are useful." |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
stefanken
Nuovo Arrivato
39 Messaggi |
Inserito il - 13 ottobre 2010 : 16:07:28
|
Citazione: A far better way to “test” the shape of the distribution is to ask yourself the following simple question: Is it fair and honest to describe the two distributions using means and SDs?
If the answer is YES, then it is probably fine to proceed with your t-test. If the answer is NO (e.g., due to severe skewness, or due to the scale being too far from interval), then you should consider using another test, or perhaps transforming the data. Note that the answer may be YES even if the distributions are somewhat skewed, provided they are both skewed in the same direction (and to the same degree). ---------------------- accidenti... la mia situazione non rientra in nessuno dei due casi... io direi un "who the hell knows?"
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 13 ottobre 2010 : 16:25:43
|
Scusa, a questo punto potresti uploadare un'immagine degli istogrammi e delle curve Q-Q, almeno possiamo ragionarci meglio?
Nel dubbio io direi "usa il non parametrico".
Ad ogni modo un test veloce (giusto per metterti il cuore in pace): prova a fare un t-test, un test di Wilcoxon e un test di Brunner. I risultati sono completamente diversi? (questo ovviamente non risolve il problema di che test usare, ma almeno ti dà un'idea della robustezza dei vari test a variazioni dalla normalità) |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 13 ottobre 2010 : 19:08:41
|
beh grazie a chick80 che ha dato qualche utile suggerimento riportando citazioni molto utili. La questione è proprio sul concetto di normalità, sui cui a volte si fa confusione. I test parametrici si applicano a popolazioni che hanno una distribuzione normale dei dati oppure a dati campionari che 'provengono' da una popolazione normale. Che provengono! non a dati campionari che sono distribuiti normalmente! Quindi in realtà uno dovrebbe preoccuparsi di dimostrare che i dati provengono da popolazione normale! Cosa abbastanza difficile! Un passo indietro: ma cosa vuol dire distribuzione normale. Meglio sarebbe chiamarla distribuzione gaussiana o degli errori. Una distribuzione è gaussiana se il processo stocastico che l'ha generata è un processo caratterizzato da misure ripetute sullo stesso oggetto. E' la distribuzione degli errori che si fanno ripetendo molte volte la stessa identica misurazione. Difficilmente si trovano in biologia misure di questo tipo se non in ambito di controllo di qualità degli strumenti. Misurare un parametro biologico in un campione di unità sperimentali (ognuna diversa l'una dall'altra ) non è misurare la stessa unità più volte. Il fatto è che la statistica inferenziale frequentista sfutta le proprietà della distibuzione gaussiana perchè permette di costruire strumenti di inferenza appunto.
Nella pratica però attenzione va posta non tanto alla distribuzione dei dati campionari ma alla distribuzione degli errori(residui) dei modelli paramtrici utilizzati. Il test t altro non è che un caso particolare di analsi della varianza che a sua volta è un caso particolare di modello lineare. Ragionando in termini di modelli lineari, si tratta di verificare se i residui del modello (cioè la differenza tra i dati osservati e quelli predetti) sono gaussiani, omoschedastici e non dipendenti.
Quello che si può fare nella pratica è verificare se almeno graficamente la distribuzione dei dati è SIMMETRICA ( non normale) e in questo caso si può provare ad adattare un modello lineare. In caso contrario si utilizzano sistemi non parametrici. Meglio ancora è presentare i dati in termini di intervalli di confidenza evitando test statistici!
|
|
|
|
Discussione |
|