Cantidad vs Calidad de datos. Una historia verdadera.

La calidad de los datos a menudo importa más que la cantidad de datos cuando se hace una estimación o un modelo basado en una muestra.

La calidad de los datos en data science implica integridad, consistencia del formato, limpieza y precisión de cada dato individual. La estadística añade la noción de representatividad.

El ejemplo clásico es el sondeo de Literary Digest de 1936 que predijo una victoria de Alf Landon contra Franklin Roosevelt.

The Literary Digest, una publicación periódica líder del día, encuestó a toda su base de suscriptores, más listas adicionales de individuos, un total de más de 10 millones, y predijo una victoria aplastante para Landon. George Gallup, fundador de Gallup Poll, realizó encuestas quincenales de solo 2.000 y pronosticó con precisión la victoria de Roosevelt. La diferencia radica en la selección de los encuestados.

Literary Digest optó por la cantidad, prestando poca atención al método de selección.

Así fue como terminaron encuestando a aquellos con un estatus socioeconómico relativamente alto (sus propios suscriptores, más aquellos que, en virtud de poseer lujos como teléfonos y automóviles, aparecían en las listas de marketing).

El resultado fue sesgo de la muestra

Es decir, la muestra era diferente de alguna manera significativa y no aleatoria de la población más grande que se suponía que representaba. El término no aleatorio es importante: casi ninguna muestra, incluidas las aleatorias, será exactamente representativa de la población. Y siendo cierto lo anterior, hablamos de sesgo de muestra cuando la diferencia es significativa y se puede esperar que continúe siéndolo para otras muestras extraídas de la misma manera que la primera.