dilluns, 6 de desembre de 2010

El problema de les set vaques

Dedicat a l'àvia

Aquest és un conte que ens explicaven quan érem petits. No és matemàticament correcte al 100%, però la solució és elegant i, com tots els contes infantils, és agradable de llegir-lo. Diu així:


Hi havia una vegada una família de pagesos, un pare i tres fills, que tenien un ramat de vaques. Un dia inesperat el pare va morir. En el testament hi havia deixat escrit:
Dono la meitat de les vaques al meu fill gran. De la resta, el fill mitjà se'n quedarà la meitat. De les altres, el fill petit se'n quedarà també una meitat.
En aquell moment la família disposava de set vaques. Després de fer els números, els va sortir el següent repartiment:

Gran: 3,5 vaques
Mitjà: 1,75 vaques
Petit: 0,875 vaques

Com havien de fer el repartiment? Com el fill gran podia quedar-se amb 3 vaques i mitja? I pels altres fills encara era més complicat, com es podien quedar amb 0,75 vaques o 0,875, en el cas del petit?

Els fills van anar a trobar el savi, conegut per la seva experiència en solucionar casos com els seus. El savi els va dir:

Preneu la meva vaca i torneu a fer el repartiment. Segur que us ajudarà. I, quan hagueu solucionat el problema ja ho arreglarem d'alguna manera.

Els fills van tornar cap a casa seva amb la vaca del savi. Després de fer els càlculs de nou els va sortir el següent repartiment:

Gran: 4 vaques
Mitjà: 2 vaques
Petit: 1 vaca

Ara havien solucionat el problema de les meitats i altres fraccions de vaca. A més, els sobrava una vaca, que ràpidament van tornar al savi. Quan eren allà van preguntar-li:

Savi, vostè ens ha ajudat en el repartiment, però ens queda el dubte de si aquest ha estat just per a nosaltres, o bé si hi ha hagut algú que se n'ha beneficiat.

El savi els va respondre:

Pel fill gran, el repartiment és just, ja que abans li tocaven 3,5 vaques i ara li'n toquen 4. Pel fill mitjà, el repartiment també és beneficiós, ja que abans li tocaven 1,75 vaques i ara li'n toquen 2. I pel fill petit també: passa de 0,875 a 1 vaca. Així que no hi veig cap problema en fer aquest repartiment.

I així els fills van poder fer un repartiment de les vaques bastant semblant al que deia el testament sense haver de partir cap vaca per la meitat i beneficiós per a tots ells.

Treballar amb dades agregades - la paradoxa de Simpson

Extret de Statistics for Business and Economics, Anderson, Sweeney, Williams pags 45 - 49

Una taula creuada (crosstabulation) és un resum en forma de taula per a dues variables.
Per exemple, si estudiem la valoració que fan d'un restaurant diversos clients en funció del que paguen podríem tenir una taula com la següent:

Preu pagat per l'àpat
Valoració | 10-19€ 20-29€ 30-39€ 40-49€ | Total
------------------------------------------------------
Bo | 42 40 2 0 | 84
Molt bo | 34 64 46 6 | 150
Excel·lent | 2 14 28 22 | 66
------------------------------------------------------
Total | 78 118 76 28 | 300

Les dades en dues o més taules creuades sovint són combinades conjuntament tot formant una taula creuada agregada on algunes variables es recombinen. En aquests casos, hem d'anar en molt de compte a l'hora d'extreure conclusions sobre la relació entre les diverses variables. Fins i tot, en alguns casos, les conclusions basades en la taula creuada agregada poden ser totalment falsejades si es contrasten amb les dades de les taules creuades originals. És el que es coneix com a Paradoxa de Simpson. Ho mostrem en un exemple:

La jutgessa Alícia i el jutge Bartomeu han presidit diversos casos tant a l'Audiència Nacional com al Tribunal Suprem. Alguns dels veredictes que han emès han estat apel·lats després. En la majoria de casos, l'apel·lació ha confirmat el veredicte original, però en alguns casos l'ha canviat.
A continuació mostrem una taula creuada on hi ha el resum, per cada jutge, dels casos en els que l'apel·lació ha confirmat la decisió del jutge i en quins l'ha canviat.

                      Jutge
Veredicte | Alicia Bartomeu | Total
------------------------------------------------
Confirmat | 129 (86%) 110 (88%) | 239
Canviat | 21 (14%) 15 (12%) | 36
------------------------------------------------
Total (%) | 150 (100%) 125 (100%) | 275
------------------------------------------------

La conclusió que podem treure de la taula anterior és que el jutge Bartomeu és més bo que la jutgessa Alícia, ja te un percentatge més gran d'encert en els veredictes quan aquests s'apel·len.

Però...

Si fem les taules creuades segons el tribunal on s'han pres les decisions veurem que obtenim uns resultats sorprenents:

                Jutgessa Alícia
| Tribunal Audiència |
Veredicte | Suprem Nacional | Total
-------------------------------------------
Confirmat | 29 (91%) 100 (85%) | 129
Canviat | 3 (9%) 18 (15%) | 21
-------------------------------------------
Total (%) | 32 (100%) 118 (100%) | 150
-------------------------------------------


Jutge Bartomeu
| Tribunal Audiència |
Veredicte | Suprem Nacional | Total
-------------------------------------------
Confirmat | 90 (90%) 20 (80%) | 110
Canviat | 10 (10%) 5 (20%) | 15
-------------------------------------------
Total (%) | 100 (100%) 25 (100%) | 125
-------------------------------------------


De la taula creuada i els percentatges de la jutgessa Alícia, veiem que els seus veredictes van ser confirmats en un 91% al Tribunal Suprem i en un 85% a l'Audiència Nacional. La taula del jutge Bartomeu mostra uns percentatges del 90% i el 80%, respectivament. Comparant aquests percentatges, veiem que la jutgessa Alícia té millors percentatges tant al Tribunal Suprem com a l'Audiència Nacional. Aquest resultat contradiu la conclusió anterior que el jutge Bartomeu és millor!

L'explicació del fenomen és la següent: el jutge Bartomeu ha presidit molts més casos (comparat amb la jutgessa Alícia) al Tribunal Suprem, tribunal que té un percentatge de confirmació dels veredictes més alt que l'Audiència Nacional (és a dir, a vista dels percentatges, és un tribunal més "fàcil"). Aquest major percentatge fa que els seus resultats globals siguin molt bons i arribin a superar el global de la jutgessa.

La conclusió que en podem extreure és que, tal com ens il·lustra la paradoxa de Simpson, hem d'anar molt en compte a l'hora d'extreure conclusions de taules creuades on s'utilitzen quantitats agregades. Sempre haurem d'investigar si hi ha si hi ha variables "ocultes" que poden alterar-ne les conclusions.