dilluns, 6 de desembre del 2010

Treballar amb dades agregades - la paradoxa de Simpson

Extret de Statistics for Business and Economics, Anderson, Sweeney, Williams pags 45 - 49

Una taula creuada (crosstabulation) és un resum en forma de taula per a dues variables.
Per exemple, si estudiem la valoració que fan d'un restaurant diversos clients en funció del que paguen podríem tenir una taula com la següent:

Preu pagat per l'àpat
Valoració | 10-19€ 20-29€ 30-39€ 40-49€ | Total
------------------------------------------------------
Bo | 42 40 2 0 | 84
Molt bo | 34 64 46 6 | 150
Excel·lent | 2 14 28 22 | 66
------------------------------------------------------
Total | 78 118 76 28 | 300

Les dades en dues o més taules creuades sovint són combinades conjuntament tot formant una taula creuada agregada on algunes variables es recombinen. En aquests casos, hem d'anar en molt de compte a l'hora d'extreure conclusions sobre la relació entre les diverses variables. Fins i tot, en alguns casos, les conclusions basades en la taula creuada agregada poden ser totalment falsejades si es contrasten amb les dades de les taules creuades originals. És el que es coneix com a Paradoxa de Simpson. Ho mostrem en un exemple:

La jutgessa Alícia i el jutge Bartomeu han presidit diversos casos tant a l'Audiència Nacional com al Tribunal Suprem. Alguns dels veredictes que han emès han estat apel·lats després. En la majoria de casos, l'apel·lació ha confirmat el veredicte original, però en alguns casos l'ha canviat.
A continuació mostrem una taula creuada on hi ha el resum, per cada jutge, dels casos en els que l'apel·lació ha confirmat la decisió del jutge i en quins l'ha canviat.

                      Jutge
Veredicte | Alicia Bartomeu | Total
------------------------------------------------
Confirmat | 129 (86%) 110 (88%) | 239
Canviat | 21 (14%) 15 (12%) | 36
------------------------------------------------
Total (%) | 150 (100%) 125 (100%) | 275
------------------------------------------------

La conclusió que podem treure de la taula anterior és que el jutge Bartomeu és més bo que la jutgessa Alícia, ja te un percentatge més gran d'encert en els veredictes quan aquests s'apel·len.

Però...

Si fem les taules creuades segons el tribunal on s'han pres les decisions veurem que obtenim uns resultats sorprenents:

                Jutgessa Alícia
| Tribunal Audiència |
Veredicte | Suprem Nacional | Total
-------------------------------------------
Confirmat | 29 (91%) 100 (85%) | 129
Canviat | 3 (9%) 18 (15%) | 21
-------------------------------------------
Total (%) | 32 (100%) 118 (100%) | 150
-------------------------------------------


Jutge Bartomeu
| Tribunal Audiència |
Veredicte | Suprem Nacional | Total
-------------------------------------------
Confirmat | 90 (90%) 20 (80%) | 110
Canviat | 10 (10%) 5 (20%) | 15
-------------------------------------------
Total (%) | 100 (100%) 25 (100%) | 125
-------------------------------------------


De la taula creuada i els percentatges de la jutgessa Alícia, veiem que els seus veredictes van ser confirmats en un 91% al Tribunal Suprem i en un 85% a l'Audiència Nacional. La taula del jutge Bartomeu mostra uns percentatges del 90% i el 80%, respectivament. Comparant aquests percentatges, veiem que la jutgessa Alícia té millors percentatges tant al Tribunal Suprem com a l'Audiència Nacional. Aquest resultat contradiu la conclusió anterior que el jutge Bartomeu és millor!

L'explicació del fenomen és la següent: el jutge Bartomeu ha presidit molts més casos (comparat amb la jutgessa Alícia) al Tribunal Suprem, tribunal que té un percentatge de confirmació dels veredictes més alt que l'Audiència Nacional (és a dir, a vista dels percentatges, és un tribunal més "fàcil"). Aquest major percentatge fa que els seus resultats globals siguin molt bons i arribin a superar el global de la jutgessa.

La conclusió que en podem extreure és que, tal com ens il·lustra la paradoxa de Simpson, hem d'anar molt en compte a l'hora d'extreure conclusions de taules creuades on s'utilitzen quantitats agregades. Sempre haurem d'investigar si hi ha si hi ha variables "ocultes" que poden alterar-ne les conclusions.

Cap comentari:

Publica un comentari a l'entrada