Quantitat vs Qualitat de les dades. Una història real.

La qualitat de les dades sovint és més important que la quantitat de dades quan es fa una estimació o un model basat en una mostra.

La qualitat de les dades en data science implica la integritat, la coherència del format, la neteja i la precisió de cada dada individual. Les estadístiques afegeixen la noció de representativitat.

L’exemple clàssic és l’enquesta de Literary Digest de 1936 que va predir una victòria d’Alf Landon contra Franklin Roosevelt.

The Literary Digest, una revista periòdica líder de la jornada, va enquestar tota la seva base de subscriptors, a més de llistes addicionals d’individus, un total de més de 10 milions, i va predir una derrota històrica per a Landon. George Gallup, fundador de l’Enquesta de Gallup, va realitzar enquestes quinzenals de només 2.000, i va predir amb precisió una victòria de Roosevelt. La diferència estava en la selecció dels enquestats.

The Literary Digest va optar per la quantitat, prestant poca atenció al mètode de selecció.

Van acabar enquestant a aquells amb un nivell socioeconòmic relativament alt (els seus propis abonats, més els que, en virtut de tenir luxes com telèfons i automòbils, apareixien a les llistes de màrqueting).

El resultat va ser un biaix de mostra; és a dir, la mostra va ser diferent d’una manera significativa, i no atzarosa,  de la població que volia representar. El terme “no atzarós” és important: difícilment qualsevol mostra, incloses les mostres aleatòries, serà exactament representativa de la població que vol representar. Sent cert lo anterior, parlem de biaix de mostra  quan aquesta  diferència és significativa.